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Avant-propos 


Qu'est-ce que la statistique? La statistique est une science recouvrant plusieurs 
dimensions. On emploie d’ailleurs très fréquemment le pluriel « statistiques » pour 
désigner cette discipline et témoigner ainsi de sa diversité. La statistique englobe la 
recherche et la collecte de données, leur traitement et leur analyse, leur interprétation, 
leur présentation sous la forme de tableaux et graphiques, le calcul d’indicateurs per¬ 
mettant de les caractériser et synthétiser... Ces différents éléments renvoient à ce que 
l’on a coutume de nommer la statistique descriptive, fondée sur l’observation de don¬ 
nées relatives à toutes sortes de phénomènes (économiques, financiers, historiques, 
géographiques, biologiques, etc.). 

Il arrive cependant fréquemment que les données représentatives du phénomène que 
l’on souhaite étudier ne soient pas parfaitement connues, c’est-à-dire pas toutes par¬ 
faitement observables, au sens où elles ne fournissent qu’une information partielle 
sur l’ensemble du phénomène que l’on analyse. Afin de pouvoir en réaliser une étude 
statistique, il est alors nécessaire d’inférer des informations à partir des quelques élé¬ 
ments dont on dispose. En d’autres termes, le statisticien devra effectuer des hypo¬ 
thèses concernant les lois de probabilité auxquelles obéit le phénomène à analyser. La 
statistique fait alors appel à la théorie des probabilités et est qualifiée de statistique 
mathématique ou encore de statistique inférentielle. 

Un bref retour sur l'histoire. Même si le terme de « statistique» est généralement 
considéré comme datant du XVIII e siècle 1 , le recours à cette discipline remonte à un 
passé bien plus éloigné. On fait en effet souvent référence à la collecte de données en 
Chine en 2238 av. J.-C. concernant les productions agricoles, ou encore en Égypte en 
1700 av. J.-C. en référence au cadastre et au cens. La collecte de données à des fins 
descriptives est ainsi bien ancienne, mais ce n’est qu’au XVIII e siècle qu’est apparue 
l’idée d’utiliser les statistiques à des fins prévisionnelles. Ce fut le cas en démogra¬ 
phie où les statistiques collectées lors des recensements de la population ont permis 
l’élaboration de tables de mortalité en Suède et en France. 

Du côté des mathématiciens, les recherches sur le calcul des probabilités se sont dé¬ 
veloppées dès le XVII e siècle, au travers notamment des travaux de Fermât et Pascal. 
Même si Condorcet et Laplace ont proposé quelques exemples d’application de la 
théorie des probabilités, ce n’est qu’au cours de la deuxième moitié du XIX e siècle, 
grâce aux travaux de Quételet, que l’apport du calcul des probabilités à la statistique 
fut réellement mis en évidence, conduisant ainsi aux prémisses de la statistique ma¬ 
thématique. Cette dernière s’est ensuite largement développée à la fin du XIX e siècle 
et dans la première moitié du XX e siècle. 

Par la suite, grâce notamment aux progrès de l’informatique peu avant la deuxième 
moitié du XX e siècle, de nouvelles méthodes d’analyse ont vu le jour, comme l’ana¬ 
lyse multidimensionnelle permettant d’étudier de façon simultanée plusieurs types de 
données. La deuxième moitié du XX e siècle est aussi la période durant laquelle plu¬ 
sieurs courants de pensée en statistique s’affrontent, notamment autour de la notion de 
probabilité. 

1 On attribue en effet ce terme au professeur allemand Gottfried Achenwall (1719-1772) qui, en 1746, 
emploie le mot Statistik dérivé de Staatskunde. 
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Statistique et probabilités 


Les domaines d’application de la statistique sont multiples. Initialement employée en 
démographie, elle est en effet utilisée dans toutes les sciences humaines et sociales 
comme l’économie, la finance, la gestion, le marketing, l’assurance, l’histoire, la so¬ 
ciologie, la psychologie, etc., mais aussi en médecine, en sciences de la terre et du vi¬ 
vant (biologie, géologie...), météorologie, etc. Cet éventail des domaines illustre ainsi 
toute la richesse de la statistique dont cet ouvrage vise à rendre compte. 

En quoi ce manuel se distingue-t-il des autres ouvrages de statistique? 

Tout en présentant de façon rigoureuse tous les développements théoriques néces¬ 
saires, cet ouvrage propose un exposé clair et pédagogique des différents concepts en 
les illustrant par de très nombreux exemples et cas concrets. Le lecteur sera ainsi à 
même de répondre à de multiples questions qui se posent au quotidien dans les do¬ 
maines de l’économie, la finance et la gestion. 

Chaque chapitre débute par des questions et exemples concrets, permettant de mettre 
en avant l’intérêt des concepts statistiques qui vont être étudiés. Afin de répondre à ces 
interrogations et traiter ces cas concrets, les différents outils et méthodes statistiques 
sont ensuite présentés. L’exposé est ainsi progressif, mêlant de façon harmonieuse 
définitions littéraire et mathématique. En fin de chapitre figurent des exercices qui 
permettent au lecteur d’évaluer et tester les connaissances acquises. Les exercices font 
l’objet de corrigés très détaillés, disponibles en ligne sur www.dunod.com, sur la 
page de l’ouvrage. Le lecteur trouvera également sur cette page Internet des annexes 
à télécharger reproduisant les principales tables statistiques, ainsi que de nombreux 
compléments relatifs à plusieurs chapitres de l’ouvrage. 

Diverses rubriques spécifiques à la collection « Openbook » composent les chapitres. 
Outre les prérequis et les objectifs propres à chaque chapitre, une rubrique « Les 
grands auteurs » présente de façon synthétique un auteur clé dont les travaux ont pro¬ 
fondément marqué le développement de la statistique. La rubrique « Focus » permet 
quant à elle de faire rapidement le point sur un concept fondamental, alors que la 
rubrique « Pour aller plus loin » offre la possibilité au lecteur d’approfondir un ou 
plusieurs points particuliers. La rubrique « En pratique » permet également au lecteur 
de se familiariser avec l’application concrète d’un concept ou d’une méthode. Enfin, 
la rubrique « Trois questions à... » illustre l’orientation résolument appliquée de l’ou¬ 
vrage en donnant la parole à quelques grands acteurs du monde professionnel, nous 
expliquant la façon dont ils utilisent la statistique au quotidien. 

Comment est organisé ce manuel ? Cet ouvrage a pour objectif de fournir au lec¬ 
teur l’ensemble des connaissances que doit acquérir un étudiant au cours de son cursus 
de licence en économie-gestion ou de son cycle d’études Bac+3. Il couvre donc les 
trois années du cycle Bac+3 (licence ou bachelor). Il s’organise ainsi en trois parties, 
chacune étant relative à une année du cycle Bac+3. La première partie, correspon¬ 
dant au programme de la première année post-bac, traite de la statistique descriptive 
et comporte quatre chapitres. Le chapitre 1 étudie les distributions à un caractère et 
présente l’ensemble des concepts de base de la statistique descriptive : tableaux, gra¬ 
phiques et caractéristiques clés comme la moyenne, la variance, la médiane, etc. Le 
chapitre 2 étend l’analyse au cas de deux variables statistiques et porte ainsi sur les 
distributions à deux caractères. Le chapitre 3 offre une présentation des indices, très 
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Avant-propos 


utilisés en pratique. Le chapitre 4 propose quant à lui une introduction à l’analyse 
des séries temporelles en dotant le lecteur de l’ensemble des outils nécessaires pour 
l’analyse de l’évolution d’un phénomène au cours du temps. 

La deuxième partie de l’ouvrage, correspondant au programme de la deuxième année 
du cycle Bac+3, relève du domaine de la statistique mathématique et se compose 
également de quatre chapitres. La notion fondamentale de probabilité fait l’objet du 
chapitre 5. Le chapitre 6 traite des variables aléatoires, c’est-à-dire des variables dont 
les valeurs sont soumises au hasard. L’étude de ces variables nécessite le recours à 
des lois de probabilité, dont les plus usuelles (lois normale, binomiale, de Student, 
de Poisson...) sont présentées au cours du chapitre 7. Le chapitre 8 clôt la deuxième 
partie par l’étude des propriétés de convergence. 

La troisième partie de l’ouvrage, correspondant au programme de la dernière année du 
cycle Bac+3, traite de l’estimation et des tests. Le chapitre 9 est relatif à l’estimation, 
le chapitre 10 proposant quant à lui une description de l’une des méthodes les plus 
utilisées connue sous le nom de maximum de vraisemblance. La théorie des tests 
statistiques fait l’objet du chapitre 11, dernier chapitre du manuel. 

Remerciements. Cet ouvrage est le fruit de divers enseignements de statistique dis¬ 
pensés par les auteurs en première, deuxième et troisième années de licence à l’Univer¬ 
sité d’Orléans et à l’Université Paris Ouest-Nanterre La Défense. Nous adressons nos 
remerciements à nos étudiants dont les questions et commentaires lors de nos cours 
ont naturellement contribué à la présentation pédagogique de ce manuel. Nous remer¬ 
cions Lionel Ragot pour la confiance qu’il nous a accordée en nous encourageant à 
rédiger ce manuel, ainsi que les éditions Dunod. Nous remercions très vivement nos 
collègues et amis Cécile Couharde, Olivier Darné, Emmanuel Dubois, Gilles Dufré- 
not, Elena Dumitrescu, Meglena Jeleva et Hélène Raymond pour leur relecture très 
attentive et pour leurs remarques et suggestions toujours très constructives. Emma¬ 
nuel Dubois nous a également aidé pour la réalisation de certains graphiques dans la 
première partie de l’ouvrage, qu’il en soit chaleureusement remercié. Alina Catargiu, 
Axelle Chauvet-Peyrard, Andreea Danci, Damien Deballon, Laurent Ferrara, Yoann 
Grondin, Abdou Ndiaye, Ekaterina Sborets et Stéphanie Tring ont très gentiment ac¬ 
cepté de répondre à nos questions, nous leur adressons nos plus vifs remerciements 
pour leurs contributions. Enfin, nous remercions très sincèrement nos familles pour 
leur soutien sans faille et leur patience lors de la rédaction de cet ouvrage. 

À Séverine, Josiane, Emmanuel et Pierre. 

A Tania et Emmanuel. 
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Partie 


Statistique 

descriptive 


I nitialement employée en démographie dans le cadre des recensements de la population, la 
statistique descriptive est utilisée dans de nombreux domaines et disciplines, comme l'économie, 
la finance, l'assurance, le marketing, l'histoire, la géographie, la géologie, la biologie, la 
médecine, la météorologie, le sport, etc. Ce très large éventail de domaines d'application s'explique 
par le fait que dès lors que l'on dispose de données, c'est-à-dire d'observations, sur le phénomène 
que l'on souhaite étudier, il est nécessaire de les traiter afin de pouvoir les exploiter pour en extraire 
un certain nombre d'informations pertinentes. Tel est précisément l'objet de la statistique descriptive, 
qui permet de résumer et synthétiser l'ensemble des données étudiées au travers de graphiques, 
tableaux et divers indicateurs dont l'un des plus connus est la moyenne. 

Au-delà de l'analyse d'un seul phénomène, la statistique descriptive permet aussi d'analyser et 
chiffrer la relation entre plusieurs phénomènes, c'est-à-dire plusieurs variables, et de mesurer 
l'intensité d'une telle liaison. 
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Chapitre 




Q uel est le salaire annuel moyen des hommes 
et des femmes en France ? Quelle est la pro¬ 
portion d’hommes et de femmes gagnant 
plus que ce salaire moyen ? À quel niveau de salaire 
se situe la plus grande partie de la population ? Les 
salaires ont-ils beaucoup fluctué ces cinquante der¬ 
nières années ? Ont-ils suivi une évolution similaire 


pour les hommes et les femmes ? Les femmes sont- 
elles victimes d’inégalités salariales ? 

La statistique descriptive permet de répondre à 
toutes ces questions. Elle permet en effet de résumer 
et synthétiser, par le biais de tableaux, graphiques 
et indicateurs statistiques, l’ensemble des données 
étudiées. 


LES GRANDS 

AUTEURS 



William Playfair (1759-1823) 

Ingénieur et économiste écossais, William Playfair est considéré comme l'un des 
pionniers de la représentation graphique des données statistiques. Dans son ouvrage 
Commercial and Political Atlas paru en 1786, il introduit plusieurs représentations 
graphiques, comme celle retraçant l'évolution temporelle des intérêts de la dette pu¬ 
blique britannique au cours du xvm e siècle ou encore le diagramme en bâtons lui 
permettant de comparer les importations et exportations de l'Écosse en 1781 à celles 
d'autres pays. Également crédité de l'invention du célèbre histogramme, les repré¬ 
sentations graphiques proposées par Playfair figurent parmi celles les plus utilisées 
en statistique descriptive. Quelques années plus tard, son ouvrage Statistical Breviary 
paru en 1801 présente un schéma circulaire, connu aujourd'hui sous le nom de re¬ 
présentation par secteurs (ou « camembert »). ■ 
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H Distributions 
\m à un caractère 


Plan 

n Définitions et concepts fondamentaux de la statistique descriptive. 5 

Fl Caractéristiques d'une distribution à un caractère . 14 


Pré-req gi s _ 

Connaître les opérations mathématiques de base. 



Synthétiser, résumer et extraire l'information pertinente contenue dans 
une série statistique. 

Représenter graphiquement une distribution statistique. 

Construire un tableau statistique. 

Définir les indicateurs statistiques clés. 
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Partie 1 Statistique descriptive 


L e tableau 1.1 donne la valeur du salaire annuel net moyen en euros des hommes 
et des femmes en France de 1950 à 2010 (source des données : INSEE). La fi¬ 
gure 1 . 1 représente graphiquement ces mêmes données : la courbe orange décrit 
l’évolution du salaire des hommes sur la période 1950-2010, la courbe grise étant rela¬ 
tive à l’évolution du salaire des femmes sur la même période. Sans prendre en compte 
l’effet de l’inflation, on constate globalement une tendance haussière avec un niveau 
plus élevé du salaire pour les hommes que pour les femmes. 


T Tableau 1.1 Salaire annuel net moyen en euros en France, 1950-2010 


Année 

Femmes 

Hommes 

Année 

Femmes 

Hommes 

Année 

Femmes 

Hommes 

1950 

310 

444 

1970 

1 807 

2 711 

1990 

13 258 

17 643 

1951 

344 

530 

1971 

2 002 

3 020 

1991 

13 772 

18 266 

1952 

402 

622 

1972 

2 218 

3 330 

1992 

14 225 

18 708 

1953 

412 

637 

1973 

2 487 

3 746 

1993 

14 894 

18 999 

1954 

462 

694 

1974 

2 946 

4 388 

1994 

14 703 

19 054 

1955 

504 

771 

1975 

3 424 

5 009 

1995 

15 606 

19 580 

1956 

550 

854 

1976 

4 009 

5 799 

1996 

15 782 

19 896 

1957 

600 

947 

1977 

4 465 

6 380 

1997 

16 187 

20 278 

1958 

669 

1 051 

1978 

5 102 

7 223 

1998 

16 506 

20 607 

1959 

711 

1 122 

1979 

5 616 

7 804 

1999 

16 861 

21 033 

1960 

789 

1 227 

1980 

6418 

8 881 

2000 

17 259 

21 498 

1961 

849 

1 327 

1981 

7 298 

10 041 

2001 

17 651 

21 889 

1962 

941 

1 460 

1982 

8 343 

11 411 

2002 

18 072 

22 422 

1963 

1 037 

1 604 

1983 

9 287 

12 587 

2003 

18 443 

22 840 

1964 

1 099 

1 714 

1984 

9 996 

13 464 

2004 

18 858 

23 360 

1965 

1 168 

1 820 

1985 

10 718 

14 430 

2005 

19 500 

24 007 

1966 

1 240 

1 935 

1986 

11 302 

15 212 

2006 

19 866 

24 370 

1967 

1 316 

2 036 

1987 

11 590 

15 639 

2007 

20 472 

25 168 

1968 

1 479 

2 231 

1988 

11 991 

16 093 

2008 

21 135 

24 287 

1969 

1 648 

2 473 

1989 

12 561 

16 776 

2009 

21 593 

26 300 







2010 

22 112 

26 831 


Source : INSEE. 


De tels tableaux et graphiques visent ainsi à résumer et rendre lisible l’information 
contenue dans les données étudiées (ici le salaire). Ils doivent être complétés par le 
calcul de divers indicateurs statistiques qui nous permettront notamment de détermi¬ 
ner le niveau moyen du salaire sur la période considérée, le niveau du salaire tel que 
le nombre d’individus (hommes et femmes) percevant moins que ce niveau est iden¬ 
tique au nombre d’individus gagnant plus, le niveau du salaire perçu par le plus grand 
nombre des individus étudiés, ou encore la dispersion, c’est-à-dire la variabilité, du 
salaire entre hommes et femmes et/ou au cours de la période d’étude. À cette fin, on 
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calcule des indicateurs dits de tendance centrale, de forme et de dispersion. Le recours 
aux indicateurs de concentration nous permet en outre de compléter l’analyse afin de 
quantifier précisément les inégalités de salaires entre hommes et femmes. 



▲ Figure 1.1 Évolution du salaire annuel net moyen en euros des hommes et des 
femmes en France, de 1950 à 2010 


il Définitions et concepts 

fondamentaux de la statistique 
descriptive 

L’objectif de la statistique descriptive est de résumer et synthétiser l’information 
contenue dans les données étudiées afin d’en déduire un certain nombre de propriétés. 
À cette fin, on utilise des tableaux et des graphiques (► section 1.2) et l’on calcule 
divers indicateurs ou caractéristiques (► section 2). 


1.1 


Définitions 


i.i.i 


Population, individus, échantillon 


Une population est un ensemble, fini ou non, d’éléments que l’on souhaite étudier. 
Ces éléments portent le nom d’individus ou d’unités statistiques. Tl peut s’agir par 
exemple d’êtres humains (adultes, enfants, chômeurs, salariés, etc.), d’animaux ou en¬ 
core d’objets (entreprises, voitures, ordinateurs, incendies, accidents, etc.). Très sou¬ 
vent, la population que l’on souhaite analyser est très grande et il est usuel de se 
restreindre à l’étude d’un échantillon. 
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Un échantillon est ainsi un sous-ensemble de la population considérée qui doit possé¬ 
der les mêmes caractéristiques statistiques que la population dont il est issu. À partir 
d’un échantillon dit représentatif, il est alors possible d’effectuer des analyses et d’en 
déduire des conclusions valables pour la population. 

Caractères, modalités et variables statistiques 

Caractères et modalités. Afin d'étudier les individus composant une population, 
on les classe en un certain nombre de sous-ensembles, appelés caractères ou va¬ 
riables statistiques. À titre d’exemple, si l’on étudie le personnel salarié d’une en¬ 
treprise, on pourra retenir comme caractères le sexe, l’âge, la profession, le salaire, 
l’ancienneté dans l’entreprise, etc. Pour une voiture, on retiendra la puissance du mo¬ 
teur, le nombre de places assises, la couleur, le modèle... Les valeurs possibles prises 
par le caractère ou la variable sont appelées modalités. La variable « sexe » a ainsi 
deux modalités, masculin et féminin, mais les caractères peuvent avoir un très grand 
nombre de modalités. Notons que les modalités doivent être incompatibles - un in¬ 
dividu ne peut pas appartenir simultanément à plusieurs modalités - et exhaustives - 
toutes les situations possibles doivent être recensées. 

Une variable peut être qualitative ou quantitative. Dans le premier cas, les modalités 
ne sont pas des valeurs chiffrées, elles ne sont pas mesurables mais uniquement ob¬ 
servables (sexe, nationalité, catégorie socio-professionnelle, etc.). Dans le cas d’une 
variable quantitative, les modalités sont mesurables : à chaque modalité est associé un 
nombre, c’est-à-dire une valeur chiffrée, représentant la mesure du caractère. Ainsi, 
la puissance d’un moteur, le nombre de places assises, l’âge, la taille, etc. sont des 
variables statistiques dont les modalités sont des nombres. 

Variables statistiques qualitatives nominales et ordinales. Les variables 
qualitatives peuvent être nominales ou ordinales. Dans le premier cas, les modalités 
ne peuvent être ordonnées, contrairement au cas de variables ordinales. Des exemples 
usuels de variables nominales sont le sexe (modalités : masculin, féminin), l’état civil 
(modalités : célibataire, marié ou pacsé, veuf, divorcé), la couleur des yeux ou en¬ 
core le groupe sanguin. Des variables comme le niveau d’études (avec, par exemple, 
comme modalités : sans diplôme, primaire, secondaire, universitaire) ou le niveau de 
satisfaction (peu satisfait, satisfait, très satisfait) sont des variables ordinales. Notons 
toutefois que le fait de pouvoir ordonner ou non les modalités d’une variable peut être 
sujet à débats. Prenons l’exemple de la variable « catégorie socio-professionnelle ». Si 
l’on a coutume d’ordonner comme suit les trois modalités « ouvriers », « employés », 
«cadres», il devient plus difficile d’ordonner les modalités «enseignant», «cher¬ 
cheur » et « responsable administratif » (en particulier si ces trois modalités corres¬ 
pondent au même niveau de diplôme et/ou de responsabilités). 

Variables statistiques quantitatives discrètes et continues et regroupe¬ 
ment en classes. Les variables quantitatives peuvent être discrètes ou continues. 
Une variable est dite discrète lorsque ses valeurs sont des nombres isolés dans son 
intervalle de variation. Il s’agit en règle générale de nombres entiers; par exemple 
le nombre d’enfants par famille, le nombre de salariés d’une entreprise, le nombre 
d’automobiles vendues. Une variable est dite continue lorsqu’elle peut prendre toutes 


1 . 1.2 
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les valeurs au sein de son intervalle de variation. On peut donner comme exemples 
la taille, le poids, la température, etc. Le nombre de valeurs possibles à l'intérieur de 
l’intervalle de variation étant infini, on les groupe par classes. Si l’on considère la 
variable de salaire annuel, on peut par exemple définir les classes suivantes : moins 
de 10000 euros, de 10000 à moins de 15 000 euros, de 15 000 à moins de 20000 eu¬ 
ros, de 20000 à moins de 25 000 euros, de 25 000 à moins de 40000 euros, plus de 
40000 euros. La longueur (ou l’étendue) de la classe, c’est-à-dire la différence entre 
l’extrémité supérieure et l’extrémité inférieure de la classe, est appelée amplitude 
de la classe. Elle peut être variable, comme dans l’exemple précédent, ou constante. 
Dans la mesure où il existe une infinité de valeurs au sein d’une classe, il est possible 
de calculer le centre de classe défini comme suit : 

Extrémité inférieure + Extrémité supérieure 
Centre de classe =- ( 1.1 ) 


EN PRATIQUE 

La distinction variables discrètes/variables continues 


Du fait de la précision limitée des mesures, il peut 
être difficile de distinguer entre variables discrètes 
et continues. On retient en conséquence fréquem¬ 
ment le groupement ou non en classes comme 
moyen de distinction : une variable continue est 
ainsi souvent telle que le nombre de ses valeurs 
est si important qu’il convient de les regrouper en 
classes afin de pouvoir l’étudier. 


S’agissant des classes, mentionnons (i) que le 
nombre d’individus par classe doit être suffisam¬ 
ment important de sorte à limiter ou éliminer les 
variations accidentelles qui peuvent se produire si 
l’on retient un effectif trop faible et (ii) que les am¬ 
plitudes ne doivent pas être trop importantes afin 
de conserver certaines particularités de la variable 
étudiée. 


1.1.3 I Fréquences et effectifs 


Considérons une population comprenant N individus. Ce nombre est appelé effectif 
total de la population. On regroupe les N individus suivant les k modalités, notées 
Xi, i = 1 de la variable x. À chaque modalité correspond un nombre d’indivi¬ 
dus rij, i = l,...,jfc, appelé effectif (ou fréquence absolue) 1 de la modalité x,. Dans le 
cas d’une variable quantitative ou qualitative ordinale, la somme des effectifs n, pour 
i = 1 est ainsi égale à l’effectif total de la population : 

k 

N = Yj H ‘ d-2) 

1=1 

La fréquence (ou fréquence relative) associée à une modalité x, est définie comme le 
rapport : 



(1.3) 


1 Dans le cas d'une variable qualitative nominale, l’effectif n, correspond au nombre de fois où la modalité 
x-, apparaît. 
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La fréquence donne la proportion d'individus de la population présentant la moda¬ 
lité x; et est en général exprimée en pourcentage. En utilisant l’équation (1.2), on 
déduit immédiatement la propriété suivante : 

k 

Y j fi=\ = \00% (1.4) 

i=i 


La somme des fréquences / correspondant aux différentes modalités, notée F,, est 
appelée fréquence cumulée : 

ri = /I (L5) 

F 2 = /, + h (1.6) 


Fi = f\ + fi + ... + fj + ... + fi 


(1.7) 


soit : i 

= O-») 

j= i 

La fréquence cumulée F, indique la proportion des individus pour lesquels la variable 
étudiée est strictement inférieure à x,+i. 

On définit de la même façon les effectifs cumulés : 

i 

= £«; O- 9 > 

j= i 


1.2 


Tableaux statistiques et représentations 
graphiques 


Les individus classés suivant les caractères et modalités forment une distribution (ou 
une série) statistique qui peut être synthétisée sous la forme de tableaux statistiques 
et de graphiques : une série représente ainsi la suite des valeurs prises par la variable 
étudiée. Ces tableaux sont à une dimension si l’on ne considère qu’un seul caractère 
et à deux dimensions si l’on retient deux caractères (► chapitre 2). 


FOCUS 


Variable statistique et variable aléatoire 


Ainsi que nous l’avons vu, une variable est une en¬ 
tité pouvant prendre toutes les valeurs possibles au 
sein d’un ensemble de définition donné. Lorsque 
les valeurs prises par la variable sont soumises 
au hasard (par exemple, « pile » ou « face » dans 
le cas du lancer d’une pièce), on parle de va¬ 
riable aléatoire (► chapitre 6). Il convient de ne 
pas les confondre avec les variables statistiques, 
objet d’étude de ce premier chapitre. La distri¬ 


bution d’une variable statistique est une distribu¬ 
tion empirique. Les différentes caractéristiques qui 
seront présentées dans ce chapitre se réfèrent à 
cette distribution empirique : fonction de réparti¬ 
tion empirique, moyenne empirique, variance em¬ 
pirique, moments empiriques, etc. Dans la suite du 
chapitre, afin d’alléger la présentation nous omet¬ 
trons généralement le terme « empirique », mais il 
convient de bien garder cette notion à l’esprit. 
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1 . 2.1 


Distributions à caractère qualitatif 


Considérons l’origine sociale des étudiants en économie durant l’année universitaire 
2011-2012. Le tableau 1.2 reporte, dans la première colonne, les 8 modalités consi¬ 
dérées. Les deuxième et troisième colonnes donnent respectivement l’effectif pour 
chaque modalité et la fréquence correspondante ; cette dernière étant égale au rapport 
entre l’effectif de chaque modalité et l’effectif total (140205 étudiants). On constate 
ainsi que près de 25 % des étudiants en économie ont leurs parents cadres supérieurs 
ou exerçant une profession libérale. Une très faible proportion, 1,9 %, d’étudiants est 
issue du milieu agricole. 


▼ Tableau 1.2 Origine sociale des étudiants en économie à l'université en 2011-2012 


Modalités 

Effectifs 

Fréquences 

Agriculteurs 

2 665 

1,9 

Artisans, commerçants, chefs d'entreprise 

12 029 

8,6 

Professions libérales, cadres supérieurs 

34867 

24,9 

Professions intermédiaires 

14 666 

10,5 

Employés 

17186 

12,3 

Ouvriers 

16601 

11,8 

Retraités, inactifs 

21 506 

15,3 

Non renseigné 

20685 

14,8 

Total 

140205 

100,0 


Source : Ministère de l'Enseignement Supérieur et de ia Recherche, MESR (DGESIP-DGRI-SIES). 


Deux principaux types de graphiques sont utilisés pour des distributions à caractère 
qualitatif : la représentation en tuyaux d’orgue et la représentation par secteurs 
(camembert). 



Professions libérales, cadres sup. 
Retraités, inactifs 


Agriculteurs 
Non renseigné 


gH§ Employés 
HH Ouvriers 



Professions intermédiaires 
Artisans, commerçants, chefs d'ent. 


A Figure 1.2 Représentation en tuyaux d’orgue 


A Figure 1.3 Représentation par secteurs 
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Dans les deux cas, le principe de base est que les surfaces doivent être proportionnelles 
aux effectifs. Sur le graphique 1.2 en tuyaux d’orgue, les différentes modalités sont 
représentées par des rectangles de base constante et de hauteurs proportionnelles aux 
effectifs. Il est également possible de considérer les fréquences au lieu des effectifs en 
ordonnée. Dans le cas d’une représentation par secteurs (► figure 1.3), l’effectif total 
est représenté par un cercle et les modalités par des secteurs dont la surface (et donc 
l’angle au centre) est proportionnelle à l’effectif. 


Cas des variables discrètes. Considérons la répartition du nombre d’enfants sur 
un échantillon de 150 familles. La première colonne du tableau 1.3 reporte les diffé¬ 
rentes modalités (nombre d'enfants par famille), la deuxième colonne les effectifs pour 
chacune des modalités, la troisième colonne la fréquence correspondante, la dernière 
colonne donnant la fréquence cumulée. On constate ainsi que 31,33 % des familles 
ont moins de 2 enfants, 61,33 % des familles ont moins de 3 enfants, et ainsi de suite. 
De façon générale, le tableau statistique d’une variable discrète sera de la forme re¬ 
présentée dans le tableau 1 .4. 

▼ Tableau 1.3 Nombre d'enfants par famille 


Modalités 

Effectifs 

Fréquences 

Fréquences cumulées 

0 

10 

6,67 

6,67 

1 

37 

24,67 

31,33 

2 

45 

30 

61,33 

3 

24 

16 

77,33 

4 

16 

10,67 

88,00 

5 

9 

6 

94,00 

6 

6 

4 

98,00 

7 

3 

2 

100,00 

Total 

150 

100 



1.2.2 Distributions à caractère quantitatif 


Deux types de graphiques existent pour les variables quantitatives discrètes : le dia¬ 
gramme en bâtons et le diagramme cumulatif (ou diagramme intégral). Dans un 
diagramme en bâtons, on fait correspondre à chaque valeur des modalités x, (en abs¬ 
cisse) un bâton vertical de longueur proportionnelle à l’effectif », ou à la fréquence f 
associée (en ordonnée). La figure 1.4 reporte ainsi le diagramme en bâtons correspon¬ 
dant aux données du tableau 1.3. Notons que dans le cas où ce sont les fréquences 
qui sont reportées en ordonnée, la courbe joignant les sommets des bâtons est appelée 
courbe des fréquences. 

Le diagramme cumulatif (ou courbe cumulative) consiste à représenter les fréquences 
cumulées (ou, de façon similaire, les effectifs cumulés) sur un graphique en escalier 
(► figure 1.5) . Les valeurs des modalités x,- de la variable x étudiée figurent en abs- 

2 La courbe joignant les extrémités droites des « marches d’escalier» est appelée courbe des fréquences 
cumulées. 
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▼ Tableau 1.4 Tableau statistique d'une variable quantitative discrète 


i 


Modalités x, 

Effectifs n, 

Fréquences f, = n-JN 

Fréquences cumulées F, = ^ fj 

7=1 

*i 

n i 

U 

F^ 

*2 

n 2 

h 

F 2 = fi + f 2 

Xi 

ni 

fi 

F,- = ft + f 2 + ... + fi 

x k 

n k 

f k 

& 

H 

+ 

+ • • 

+ 

il 

Total 

N 

1 (ou 100 %) 



Nombre d'enfants par famille 




▲ Figure 1.4 Diagramme en bâtons ▲ Figure 1.5 Courbe cumulative 


cisse, la hauteur de chaque marche de l’escalier étant proportionnelle à la fréquence 
cumulée correspondante. Le diagramme cumulatif représente ainsi la proportion, no¬ 
tée F x (xi), des individus de l’échantillon pour lesquels la valeur de la variable x est 
inférieure à x,-. Cette fonction, définie pour toute valeur de x, est appelée fonction 
cumulative ou fonction de répartition (empirique) ' et est donnée par : 

i 

Fx(xd = J] fj O- 10 ) 

7=1 

Si l’on reprend le tableau 1.3, il est ainsi aisé de constater que plus de 60 % (61,33 %) 
des familles ont moins de 3 enfants. 

Cette fonction est telle que : 

lim F x (xj) = 1 et lim F x (xî) = 0 (1.11) 

X— H-oo Xi —>-oo 


3 Rappelons qu’il s'agit d'une fonction de répartition empirique puisqu'elle se rapporte à une variable 
statistique (et non pas à une variable aléatoire comme ce sera le cas dans le chapitre 6). 
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Cas des variables continues. Considérons la répartition des enfants scolarisés par 
âge, de 2 ans à moins de 22 ans, durant l’année 2010-2011 en France. S’agissant 
d’une variable continue, les données sont regroupées en classes et sont reportées dans 
le tableau 1.5. 


T Tableau 1.5 Répartition des enfants scolarisés par âge en 2010-2011 en France 


1 Numéro de classe i 

Classes 

Effectifs n, 

Fréquences f, 

Fréquences cumulées F, [ 

1 

2 à moins de 6 ans 

2 538 643 

18,36 

18,36 

2 

6 à moins de 10 ans 

3 220 753 

23,29 

41,65 

3 

10 à moins de 14 ans 

3 174 548 

22,96 

64,61 

4 

14 à moins de 18 ans 

2 967 358 

21,46 

86,07 

5 

18 à moins de 22 ans 

1 925 926 

13,93 

100 

Total 


13 827 228 

100 



Source : Ministère de l'Éducation nationale (MEN), MESR, INSEE. 

De façon générale, en notant e,--i la borne (ou extrémité) inférieure de la classe i et e, 
la borne supérieure de cette même classe, le tableau statistique d’une variable continue 
prend la forme de celui représenté dans le tableau 1.6. 


T Tableau 1.6 Tableau statistique d'une variable quantitative continue 


Numéro de classe / 

Classes [e,_i,e,[ 

Effectifs /?, 

Fréquences f) = n,//V 

/ 

Fréquences cumulées F,- = ^ 

/=i 

1 

[e 0 ,ei[ 

ni 

fi 

Fi 

2 

[ei,e 2 [ 

n 2 

h 

f 2 = fi + 4 

/ 

[e;_i,e/[ 

n; 

fi 

Fi = fi + fi + ••• + f 

k 

[efc-i.ej 

n k 

4 

Fk = fl + fl + ... + 4 = 1 

Total 


N 

1 (ou 100 %) 



Dans la mesure où une variable quantitative continue peut prendre une infinité de va¬ 
leurs au sein d’une classe donnée, la représentation graphique en diagramme en bâtons 
n’est pas appropriée. Pour représenter une variable quantitative continue, on utilise un 
histogramme : à chaque classe de la variable, portée en abscisse, on associe un rec¬ 
tangle ayant pour base l’amplitude de la classe et dont la hauteur est proportionnelle 
à l’effectif (ou à la fréquence). On doit distinguer le cas où les classes ont toutes la 
même amplitude du cas d’amplitudes différentes. Considérons tout d’abord le cas, 
comme celui décrit dans le tableau 1.5, où les classes ont toutes la même amplitude, 
soit ici 4 ans. Comme illustré par l’histogramme reporté sur la figure 1.6, la hauteur 
de chaque rectangle est proportionnelle à la fréquence f. On obtient naturellement un 
graphique similaire si l’on remplace les fréquences f par les effectifs n,. 
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A Figure 1.6 Répartition des enfants scolarisés par âge en 2010-2011 en France, 
histogramme 


Remarque : La courbe joignant le milieu des sommets des rectangles est appelée 
courbe ou polygone des fréquences. Une telle courbe est notamment utilisée lorsque 
l’échantillon comprend un très grand nombre d’individus, rendant la représentation 
en histogramme peu lisible du fait des regroupements des observations en un nombre 
relativement faible de classes. 

Considérons à présent le cas où les classes n’ont pas la même amplitude. Reprenons 
et complétons à cette fin l’exemple de la répartition des enfants scolarisés en France 
en considérant une classe supplémentaire, la classe allant de 22 ans à moins de 30 ans 
(► tableau 1.7). 


▼ Tableau 1.7 Répartition des enfants scolarisés par âge en 2010-2011 en France 


Numéro de classe i 

Classes 

Effectifs n, 

Fréquences f-, 

Amplitude a, 

Amplitude aj 

Hauteur h. 

1 

[2,6[ 

2 538643 

17,31 

4 

1 

17,31 

2 

[6,10[ 

3 220753 

21,96 

4 

1 

21,96 

3 

[ 1 0 , 14[ 

3 174 548 

21,64 

4 

1 

21,64 

4 

[ 14,18[ 

2 967 358 

20,23 

4 

1 

20,23 

5 

[ 18,22[ 

1 925 926 

13,13 

4 

1 

13,13 

6 

[22,30[ 

840 518 

5,73 

8 

2 

2,87 

Total 


14 667 746 

100 





Source : MEN, MESR, INSEE. 


Ainsi que nous le constatons dans le tableau 1.7, l’amplitude a, des 5 premières classes 
est de 4 ans, la dernière classe ayant quant à elle une amplitude de 8 ans. Pour pouvoir 
comparer les effectifs ou les fréquences des différentes classes, il convient de « corri¬ 
ger » les amplitudes afin que l’aire de chaque rectangle composant l’histogramme soit 
bien proportionnelle à l’effectif (ou la fréquence). À cette fin, on choisit une amplitude 
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unité a u , qui est en général l’amplitude la plus fréquente ou la plus faible. Ici, nous 
retenons donc une amplitude unité égale à 4 ans. On exprime les amplitudes de chaque 
classe en fonction de cette nouvelle unité. Soient a\ les amplitudes ainsi corrigées : 


t U ^i—i 
a i = - 

a u 

Il suffit ensuite de calculer la hauteur /r, des rectangles comme suit : 


( 1 . 12 ) 


h, = 


f 

a’ 

l 


(1-13) 


et l’on peut alors tracer l’histogramme dans lequel l’aire de chaque rectangle est bien 
proportionnelle à la fréquence (ou l’effectif) de la classe correspondante (► figure 1 .7). 


L’obtention de la fonction de répartition empirique d’une variable continue est simi¬ 
laire au cas d’une variable discrète et cette fonction vérifie les mêmes propriétés aux 
limites. La fonction de répartition empirique correspondant aux données figurant dans 
le tableau 1.5 est ainsi reproduite sur la figure 1.8. 


Répartition des enfants scolarisés par âge 
en 2010-2011 en France 



A Figure 1.7 Histogramme 


A Figure 1.8 Courbe cumulative 



Caractéristiques 

d'une distribution à un caractère 


Ainsi que nous l’avons vu dans la section précédente, les tableaux et graphiques nous 
permettent de disposer d’une première description des données étudiées. Un graphique 
nous donne une idée de l’ordre de grandeur de la variable considérée, au travers des 
valeurs de la variable situées au centre de la distribution. On parle alors de tendance 
centrale. Un graphique nous fournit également une indication quant à la variabilité 
des données autour de cette tendance centrale, on parle alors de dispersion. Pour me¬ 
surer la tendance centrale et la dispersion, il convient de calculer des caractéristiques 
permettant de décrire plus précisément la distribution que les graphiques. On y adjoint 
des caractéristiques de forme et de concentration. 
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Chapitre 1 Distributions à un caractère 


tnzns. 

Les conditions de Yule 


Les caractéristiques doivent remplir un certain 
nombre de propriétés, appelées conditions de 
Yule. Une caractéristique doit ainsi : 

- être objective, c’est-à-dire indépendante de 
l’observateur; 

- utiliser l’information de façon exhaustive, 


c’est-à-dire être basée sur l’ensemble des obser¬ 
vations de la série ; 

- être facilement interprétable et calculable ; 

- être peu sensible aux fluctuations d’échantillon¬ 
nage ; 

- se prêter aisément au calcul algébrique. 


2.1 


Caractéristiques de tendance centrale 


2.1.1 i Mode 


Le mode d’une distribution est la valeur de la variable qui correspond à l’effectif 
ou à la fréquence le (la) plus élevé(e). Tl s’agit donc de la valeur la plus fréquem¬ 
ment rencontrée dans une distribution. 


Le mode peut être calculé pour tous les types de variables (qualitative et quantitative). 

Cas d'une variable discrète. Reprenons le tableau 1.3 ou, de façon équivalente, 
la figure 1.4. Le mode est la modalité pour laquelle la fréquence est la plus élevée, 
c’est-à-dire pour laquelle la bâton est le plus haut sur le graphique. Tl s’agit donc ici 
de la valeur 2, ce qui signifie que la majorité des familles considérées ont 2 enfants. 
Notons que lorsque la série étudiée comporte deux valeurs consécutives pour les¬ 
quelles la fréquence est la plus élevée, on parle à'intervalle modal - les bornes de 
cet intervalle correspondant à ces deux valeurs de la série. Mentionnons en outre que 
lorsque la distribution étudiée ne comporte qu’un seul mode - ce qui est le cas le 
plus fréquent - on parle de distribution unimodale. Il peut toutefois arriver que la 
distribution comporte 2 ou plusieurs modes (correspondant à 2 ou plusieurs valeurs 
non consécutives), on parle alors de distributions bi-modale ou pluri-modale. La pré¬ 
sence de plusieurs modes est indicative d’une certaine hétérogénéité de l’échantillon 
analysé. 

Cas d'une variable continue. Les données étant regroupées en classes, on déter¬ 
mine la classe modale qui correspond à la classe du tableau ou de l’iiistogramme pour 
laquelle la fréquence est la plus élevée. Dans le cas de l’exemple relatif à la répartition 
par âge des enfants scolarisés (► tableau 1.5), la classe modale est la classe [6,10[. 
Ainsi que l’illustre la figure 1.9, il est possible de déterminer la valeur précise du 
mode : 

Mode = e,_i + a m X - , (1.14) 

d\ + d 2 
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où e,-i désigne la valeur de l’extrémité inférieure de la classe modale, a m l’amplitude 
de cette même classe, d\ la différence entre l’effectif de la classe modale et l’effectif de 
la classe précédente et d-± la différence entre l’effectif de la classe modale et l’effectif 
de la classe suivante. Dans le cadre de notre exemple, la valeur du mode est donnée 
par : 


Mode — 6 + 4 X 


(3 220753-2538643) 

(3 220 753 - 2 538 643) + (3 220 753 - 3 174 548) 


9,75 (1.15) 


Remarque : Dans le cas où les classes sont d’amplitudes différentes, il convient de 
corriger les effectifs ou les fréquences préalablement à la détermination du mode en 
utilisant la procédure présentée dans la section 1.2.2. Dans la formule (1.14), d\ et d 2 
désignent alors des effectifs corrigés. 



classe modale 


▲ Figure 1.9 Détermination du mode, cas d'une variable continue 


2 . 1.2 


Médiane 


Définition 1.2 

La médiane est la valeur de la variable qui partage la série étudiée en deux sous- 
ensembles d’effectifs égaux. 


En d’autres termes, la médiane - qui peut être calculée sur des variables quantitatives 
ou qualitatives ordinales - est telle que le nombre des individus ayant une valeur in¬ 
férieure soit égal au nombre des individus ayant une valeur supérieure. Il s’agit de la 
valeur M de la variable pour laquelle la fréquence cumulée est égale à 1/2 : 

F X (M)='- (1.16) 

Exemple 

Si la note médiane des étudiants à l’examen de mathématiques en première année est égale 
à 12/20, cela signifie qu’il y a autant d’étudiants ayant obtenu moins de 12/20 que d’étudiants 
ayant obtenu plus de 12/20. 

Cas d'une variable discrète. La détermination de la médiane nécessite au préa¬ 
lable de classer les observations de la série par ordre croissant. Considérons par 
exemple 9 étudiants ayant obtenu les notes suivantes (sur 20) : 4 ; 3 ; 17 ; 19 ; II; 
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10; 12; 14; 13. On classe ces observations par ordre croissant, soit : 3 ; 4; 10; 11; 
12; 13 ; 14; 17 ; 19. La médiane est égale à 12/20 : il y a autant d’étudiants ayant 
obtenu une note en dessous de 12 que d’étudiants ayant obtenu plus de 12/20. On 
constate que la médiane est très simple à calculer dans le cadre de cet exemple qui 
comprend un nombre impair d’observations. Supposons désormais que l’on ajoute à 
notre échantillon un dixième étudiant dont la note s’élève à 8/20. La série ordonnée 
s’écrit donc : 3 ; 4 ; 8 ; 10 ; 11 ; 12 ; 13 ; 14 ; 17 ; 19. Dans ce cas, on définitun intervalle 
médian, donné par [11, 12], la médiane étant quant à elle égale à ( 11 + 12)/2 = 11,5. 
Plus généralement, reprenons le cas du nombre d’enfants par famille (► tableau 1 .3). 
Ainsi que nous l’avons vu, la médiane est la valeur pour laquelle la fréquence cumulée 
est égale à 1/2. Cette valeur n’apparaît pas dans le tableau 1.3, elle se situe entre les 
modalités « 1 enfant» (F y = 0,3133) et « 2 enfants» (F 2 = 0,6133). Par convention, 
on retient dans ce cas comme valeur médiane la valeur correspondant à la ligne la plus 
basse des deux dans le tableau, soit 2 enfants par famille. Cette détermination de la 
médiane est représentée graphiquement sur la figure 1.10. 



Médiane 

Nombre d'enfants 


A 



T*- 1 - 1— -1- r~ 

2 6 10 14 18 

Médiane 

Classes d'âge 


> 


▲ Figure 1.10 Nombre d'enfants par fa¬ 
mille, détermination de la médiane 


▲ Figure 1.11 Répartition des enfants 
scolarisés par âge en 2010-2011 en 
France, détermination de la médiane 


Cas d'une variable continue. Contrairement au cas discret, la médiane peut tou¬ 
jours être exactement déterminée dans le cas d’une variable continue et est obtenue 
à partir des fréquences cumulées. Reprenons les données du tableau 1.5 relatives à la 
scolarisation par âge. La proportion d’enfants scolarisés ayant moins de 10 ans est de 
41,65 %, celle d’enfants scolarisés ayant moins de 14 ans est égale à 64,61 %. La va¬ 
leur de la médiane est donc comprise entre 10 et 14 ans. La classe [ 10,14[ est appelée 
classe médiane. La valeur de la médiane peut être déterminée graphiquement grâce à 
la fonction de répartition, ainsi que cela est reproduit sur la figure 1.11. 

Numériquement, cette valeur peut s’obtenir aisément par interpolation linéaire, via la 
relation suivante : 

M = e w + 7X[0,5-F w ] (1.17) 

Ji 

où e t -1 est l’extrémité inférieure de la classe médiane (10 dans notre exemple), a, 
l’amplitude de la classe médiane (4), fi la fréquence de la classe médiane (22,96 %) 
et Fy-y désigne la fréquence cumulée de la classe au dessus de la classe médiane dans 
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le tableau (41,65 %). On en déduit : 

M = 10 + x t°’ 5 - 0 - 416 5] - n,45 (1.18) 

O, 2 zyo 

Il s’ensuit que notre échantillon est composé d’un nombre identique d’enfants scola¬ 
risés ayant moins de 11,45 ans que d’enfants scolarisés ayant plus de 11,45 ans. 

Remarque : La présence de classes d’amplitudes inégales n’affecte pas le calcul de la 
médiane. Il n’est donc pas nécessaire de corriger les effectifs ou les fréquences pour 
déterminer la médiane. 

2.1.3 1 Quantiles 

Les quantiles sont des valeurs permettant de partager les observations ordonnées d’une 
série en sous-groupes contenant le même nombre de données (aux erreurs d’arrondis 
près). 

Définition 1.3 

Le quantile d’ordre q est défini par : 

F*(x q ) = q (1-19) 

avec 0 < q < 1 . 

Lorsque q = 1/2, on retrouve la médiane, cette dernière étant un quantile particu¬ 
lier. On distingue trois principaux types de quantiles : 

- Les quartiles : ce sont les valeurs de la variable qui partagent la distribution 
en 4 sous-ensembles égaux. Il existe donc 3 quartiles : Q\ = 0,25 ; Qi = 0,5 
et Qi - 0,75 ; le deuxième quartile Qj étant la médiane. L’intervalle £>3 ~ Q\ 
est appelé intervalle interquartile. Il comprend 50 % des observations et est en 
général utilisé comme caractéristique de dispersion (voir infra). 

- Les déciles : ce sont les valeurs de la variable qui partagent la distribution en 10 

sous-ensembles égaux. Il existe 9 déciles, notés D\ . Dg. L’intervalle Dg-D\ , 

appelé intervalle interdécile, comprend 80 % des observations et est également 
utilisé comme caractéristique de dispersion (voir infra). 

- Les centiles : ce sont les valeurs de la variable qui partagent la distribution en 
100 sous-ensembles égaux. En notant C| et C 99 les premier et dernier centiles, 
respectivement, on définit l’intervalle intercentile C 99 - C\ comprenant 98 % 
des observations. 


2.1.4 1 Moyenne arithmétique 
Définition ld 

La moyenne arithmétique d’une variable quantitative x, notée x, est égale à la 
somme des valeurs, X \, *2 > ■ • • ,x,\ , prises par cette variable divisée par le nombre 


4 Rappelons qu'il s’agit de la moyenne arithmétique empirique au sens où elle se rapporte à une variable 
statistique (et non pas à une variable aléatoire comme dans le chapitre 6). 
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d’observations N, soit : 


x = 


X] + X2 + ... + Xn 

N 


Jj_ 

N 


2 


Xi 


( 1 . 20 ) 


À titre d’exemple, considérons un échantillon de 12 étudiants ayant obtenu les notes 
suivantes (sur 20) : 4 ; 3 ; 17 ; 19 ; 11 ; 10 ; 12 ; 14 ; 13 ; 12 ; 4 ; 10. La note moyenne 
est donc égale à 10,75/20 : 

4 + 3+17+19+11 +10+12+14+13+12 + 4+10 129 

r =- ü-- TT - l0 ’ 75 

( 1 . 21 ) 

Il est également possible de regrouper au sein d’un tableau les observations ayant une 
valeur identique, en indiquant l’effectif correspondant (► tableau 1 .8). 


▼ Tableau 1.8 Moyenne arithmétique pondérée 


i Note Xj 

Effectifs n; 

n,x, ! 

3 

1 

3 

4 

2 

8 

10 

2 

20 

11 

1 

11 

12 

2 

24 

13 

1 

13 

14 

1 

14 

17 

1 

17 

19 

1 

19 

Total 

12 

129 


Pour calculer la moyenne, il convient alors de pondérer les notes par les effectifs cor¬ 
respondants, soit : 

3x1+4x2+10x2+11x1 + 12x2+13x1 + 14x1 + 17x1 + 19x1 


x = 


d’où : 


12 


129 

x =-= 10,75 

12 


( 1 . 22 ) 


(1.23) 


Il s’agit d’une moyenne arithmétique pondérée dont la définition est donnée ci-après. 

Définition _1,5 

La moyenne arithmétique pondérée d’une variable x composée des observations 
X|, X 2 , ...,Xk auxquelles sont associés les effectifs n \, ni, ...,rik est donnée par : 

= èZ n 'X' C' 24 ) 




X = 


n\X i + 112X2 + ... + nkXk 1 


N 


i=i 
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On peut également exprimer la moyenne arithmétique pondérée en fonction des fré¬ 
quences/-, i = : 


n i «2 

x= n x ' + n X2 + " 

^ Hk 
■ + N Xk 

(1.25) 

X = f\ X | +/ 2 X 2 + .. 

• + fkXk 

(L26) 

k 

~ x = Yj/x> 


(L27) 


1=1 


Dans le cas d’une variable discrète, il est possible d’appliquer directement la formule 
donnée par l’équation (1.24). On ajoute ainsi une colonne donnant le produit «,-jc, 
comme dans le tableau 1.8 et l’on obtient aisément : 

129 

x= —= 10,75 (1.28) 

Dans le cas d’une variable continue, les observations étant groupées en classes, il 
convient de déterminer préalablement le centre de classe x,- et d’appliquer ensuite 
la formule donnée par l’équation (1.24). À titre d’exemple, le tableau 1.9 reporte le 
salaire mensuel de 150 salariés d’une entreprise de textile, « TextpluS ». 


▼ Tableau 1.9 Salaire mensuel de 150 salariés, en euros 


Classes de salaires 

Effectifs n, 

Centres de classes x, 

n,x, 

[1 400,1 600[ 

26 

1 500 

39000 

[1 600,1 800 [ 

34 

1 700 

57 800 

[1 800,2 000[ 

65 

1 900 

123 500 

[2 000,2 200[ 

8 

2 100 

16800 

[2 200,2400[ 

10 

2 300 

23 000 

[2 400,2 600[ 

7 

2 500 

17 500 

Total 

150 


277 600 


Le calcul du salaire moyen donne en conséquence : 


x = 


277 600 
150 


1 850,67 


(1-29) 


Le salaire mensuel moyen des salariés de l’entreprise considérée est ainsi égal à 
1 850,67 euros. 


La moyenne arithmétique vérifie deux propriétés importantes : 

- La somme des écarts des observations à la moyenne (x, - x) est nulle : 

k 

^ n,-(x; - x) = 0 (1.30) 


i=i 


- La somme des carrés des écarts des observations à la moyenne est inférieure à la 
somme des carrés des écarts par rapport à toute autre valeur. 
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Démonstration 

Démontrons tout d’abord la relation (1.30). On a : 

k k k k k 

2 n i( x i - X) = X n ‘ X ‘ ~ X n ‘* ~ X n,Xi ~ X Y-* n ' 


(1-31) 


;= i 


Or ^n, = JVet ^ n,Xi = Nx. On en déduit donc la relation (1.30) : 

i=i i=i 

k 

'Y tij(Xi - x) = Nx - xN = 0 


(1.32) 


Pour montrer à présent que la somme des carrés des écarts des observations à la moyenne est 
inférieure à la somme des carrés des écarts par rapport à toute autre valeur, considérons une 
valeur quelconque X et minimisons la somme des carrés des écarts par rapport à cette valeur, 
notée S (X) : 


S(X) = ^n,0E;-X) 2 


1=1 


En annulant la dérivée première de S(X) par rapport à X, il vient : 

k 

y Hi(Xi - X) = 0 


soit : 


mXi - ^ riiX = 0 

i=\ i= 1 

k 

ce que l’on peut encore écrire, en notant que ^ n{X = X ^ n, et ^ ni = N : 

i= I 
k 

y n iX j - NX = 0 


(1.33) 


(1.34) 


(1.35) 


i=t ;= i 


D’où : 


X = — t riiX: - x 
N 

/=! 


(1.36) 


(1.37) 


La somme des carrés des écarts S ( X ) est donc bien minimale pour X - x. 


POUR ALLER PLUS LOI 

► Voir p. 31 


2.2 


Caractéristiques de dispersion 


Étudier la dispersion - ou la variabilité - d’une série consiste à analyser ses fluctua¬ 
tions autour d'une valeur centrale. 


2.2.1 


Étendue 


L’étendue est définie comme la différence entre la plus grande et la plus petite 
valeur de la série. 
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L'étendue est ainsi très simple à calculer, mais présente l’inconvénient majeur de ne 
dépendre que des valeurs extrêmes de la série. Ces dernières étant souvent exception¬ 
nelles, voire aberrantes, l’étendue ne constitue qu’une mesure très imparfaite de la 
dispersion d’une série. 


2.2.2 


Intervalles interquantiles 


Contrairement à l’étendue, les intervalles interquantiles permettent d’exclure les va¬ 
leurs extrêmes de la série en ne retenant qu’un certain pourcentage du nombre total 
d’observations. L’intervalle le plus fréquemment utilisé est l’intervalle interquartile 
Qî - Q\ contenant 50 % des observations de la série. Malgré son avantage de sim¬ 
plicité de calcul évident, son principal inconvénient réside dans le fait qu’il ne tient 
compte que de l’ordre des observations et non pas de leurs valeurs. Il s’agit en consé¬ 
quence, tout comme l’étendue, d’une mesure imparfaite de la dispersion. 


Écart absolu moyen 

L’écart absolu moyen, noté EAM , permet de mesurer la dispersion d'une série via 
la moyenne des valeurs absolues des écarts de chaque observation par rapport à la 
moyenne : 

1 k 

EAM = — ^ n i\ x i - Jc| (1.38) 


2.2.3 


2.2.4 


Variance et écart-type 


La variance et l’écart-type sont les mesures de dispersion les plus utilisées . 


Définition 1.7 

La variance, notée V(x), d’une variable statistique x est donnée par la moyenne 
arithmétique des carrés des écarts des observations jq, i = 1,.,.,/c, à la moyenne : 

1 k 

V(x) = — ^ m(Xi - x) 2 (1.39) 

1=1 


L’écart-type, noté tr A -, est la racine carrée de la variance et s’exprime ainsi dans 
la même unité que la variable étudiée : 


cr x = 



(1.40) 


Plus l’écart-type est faible, plus les valeurs sont regroupées autour de la moyenne. 
Ainsi, si l’écart-type d’une série de notes des étudiants de première année est faible, 
cela signifie que la promotion est relativement homogène. Inversement, un écart-type 
élevé témoigne d’une forte dispersion au sein de la promotion. 

5 Rappelons qu'il s’agit de la variance et de l’écart-type empiriques au sens où ils se rapportent à une 
variable statistique (et non pas à une variable aléatoire comme dans le chapitre 6). 
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L’utilisation des formules (1.39) et (1.40) s’avère relativement fastidieuse en pra¬ 
tique puisqu’elle nécessite le calcul des écarts (x,- - x). Afin de rendre l’application 
plus aisée, on utilise la formule développée de la variance. Développons ainsi l’équa¬ 
tion (1.39) : 

1 k 

V(x) = — ^ n ‘^ x ‘ ~ 2x ‘ x + (1-41) 


soit : 


V(x) =jf Z niX ‘ ~ 2x h 2 n ‘ xi +x 2 ^Tj n ‘ 

i= 1 i =1 1=1 


(1.42) 


Sachant que 


k j k 

^ «i = N et que — ^ riix-, = x, on en déduit : 



(1.43) 


L’équation (1.43) est appelée formule développée de la variance. Afin d’illustrer 
son application, reprenons l’exemple du salaire mensuel des 150 employés de l’en¬ 
treprise TextpluS et complétons le tableau initial (► tableau 1.9) par l’ajout de deux 
colonnes xf et n,xj (► tableau 1 . 10 ). 


▼ Tableau 1.10 Salaire mensuel de 150 salariés, en euros 


Classes de salaires 

Effectifs n, 

Centres de classes x, 

n,x, 

k 2 

n,xf 

[1400,1600[ 

26 

1 500 

39 000 

2 250000 

58 500000 

[1600,1800[ 

34 

1 700 

57 800 

2 890000 

98 260000 

[1800,2000[ 

65 

1 900 

123 500 

3 610000 

234650000 

[2000,2200[ 

8 

2 100 

16 800 

4410000 

35 280 000 

[2200,2400[ 

10 

2 300 

23 000 

5 290 000 

52 900 000 

[2400,2600[ 

7 

2 500 

17 500 

6 250000 

43 750000 

Total 

150 


277 600 


523 340 000 


L’application de la formule (1.43) donne : 

V(x) = -j-^ x 523 340 000x 277 600J =63 966,22 (1.44) 

D’où : 

cr x = V63 966,22 = 252,92 ( 1.45) 

L’écart-type de la distribution des salaires est ainsi égal à 252,92 €. En pratique, 
lorsque l’on travaille sur un échantillon - et non sur une population - il convient de 
corriger les valeurs de la variance et de l’écart-type de ce que l’on nomme le biais de 
petit échantillon (► chapitre 9). On utilise les formules dites corrigées : 

= S ni(Xi ~ x)2 = 7T~i v(x) (L46) 

i=i 
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et : 



(1.47) 


où S désigne la variance corrigée et S x l’écart-type corrigé. 

PLQPJlétés. 

- La variance est toujours positive ou nulle : V(x) > 0. 

- Le théorème de Kônig-Huygens permet de relier la moyenne et la variance au 
travers de l’identité remarquable suivante : 

1 * i * 

— ^ Hiix, - x) 2 = — ^ n,x 2 - X 2 = X 2 - X 2 (1.48) 


Coefficient de variation 

Lorsque l’on souhaite comparer la dispersion de séries dont les unités sont différentes, 
par exemple la dispersion de salaires en euros et la dispersion de salaires en livres, 
il convient d'utiliser une mesure de dispersion relative. Le coefficient de variation, 
noté CV, fournit une telle mesure. Il s’agit d’un nombre sans dimension, indépendant 
des unités considérées, défini comme le rapport entre l’écart-type et la moyenne : 

CV=— (1.49) 

x 

Ainsi, si la valeur obtenue de CV sur une série de salaires en livres perçus par les 
salariés d’une entreprise A au Royaume-Uni est proche de celle obtenue sur une série 
de salaires en euros perçus par les salariés d’une entreprise B en France, on peut en 
déduire que la dispersion des salaires est proche dans les deux entreprises. 


2.2.5 


2.3 


Caractéristiques de forme 


2.3.1 1 Moments d'une distribution 

MfinijiiQjaJJS 

On appelle moment d’ordre r (r = 0,1,..., Ai) par rapport à une valeur quel¬ 
conque a, la quantité notée M r telle que : 

1 k 

M r = — ^ rii(Xi - a) r ( 1.50) 

1=1 

où a est l’origine du moment. 


On distingue les moments simples (ou ordinaires) et les moments centrés. 


6 Rappelons qu’il s’agit dans ce chapitre des moments empiriques au sens où ils se rapportent à une 
variable statistique (et non pas à une variable aléatoire comme dans le chapitre 6). 
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ËMiiûîmJaüâ 

On appelle moment simple d’ordre r un moment d’ordre r pour lequel a = 0, 


soit 


mr= N^ n '^ i 

1=1 


(1.51) 


On constate aisément que lorsque r = 1, le moment simple d’ordre 1 est la moyenne 
arithmétique. 

Définition 1.1.0 

On appelle moment centré d’ordre r un moment d’ordre r pour lequel a = x, 
soit : 


AV = jz X «/(•*/ - x) r 
1=1 


- Le moment centré d’ordre 1 est nul : 

Ad = 0 

- Le moment centré d’ordre 2 est égal à la variance : 


Démonstration 

- Dans le cas où r = 1, on a : 


m = V{x) 


soit encore : 


Ah 


D’où : 

Dans le cas où r = 2, on a : 

soit encore : 

D’où : 


(1.52) 


(1.53) 


(1.54) 


Ah = X «/(•*/ ~ x) 

1=1 

(1.55) 

1 * j * 

1=1 1=1 

(1.56) 

Ah = 0 

(1.57) 

1 k 

& = üTj ni(x ‘-* )2 

i=i 

(1.58) 

i=i 

(1.59) 

p 2 = «2 - m] = V(x) 

(1.60) 


Remarque : Outre les moments centrés d’ordres 1 et 2, les moments centrés 
d’ordres 3 et 4 sont également fréquemment utilisés. Comme nous le verrons ci-après 
ils interviennent dans le calcul des coefficients d’asymétrie et d’aplatissement. Les 
expressions de ces deux moments sont les suivantes : 


25 


sigmakutub.blogspot.com 








Copyright © 2015 Dunod. 


Partie 1 


Statistique descriptive 


- Dans le cas où r = 3, on a : ni - ^ ^ - x) 3 


;=i 


En développant cette égalité, on obtient l’expression du moment centré d’ordre 3 : 


yi <3 = /M 3 + 2m | - 3m\ni2 

1 k 

- Dans le cas où r = 4, on a : m ^ ;î,(x, - x) 4 


(1.61) 


i=i 


En développant cette égalité, on obtient l’expression du moment centré d’ordre 4 : 


/J4 = ni4 - Am |mi + 6m]m2 - 3 m\ 


(1.62) 


2.3.2 


Asymétrie et aplatissement 


Asymétrie. L’asymétrie permet d’apprécier la répartition, régulière ou non, des ob¬ 
servations autour d’une caractéristique de tendance centrale. Ainsi, lorsque les trois 
caractéristiques de tendance centrale (moyenne, mode et médiane) sont égales, la dis¬ 
tribution (empirique) est dite symétrique (► figure 1.12). Lorsque qu’une distribution 
est telle que le mode est inférieur à la médiane, ces deux caractéristiques étant elles 
mêmes inférieures à la moyenne, la distribution est dite asymétrique et étalée vers 
la droite (ou oblique à gauche), comme cela est représenté sur la figure 1.13. Enfin, 
une distribution asymétrique étalée vers la gauche (ou oblique à droite) est telle que 
la moyenne est inférieure à la médiane, ces deux caractéristiques étant elles mêmes 
inférieures au mode (► figure 1.14). 



▲ Figure 1.12 Distribution 
symétrique 


▲ Figure 1.13 Distribution 
étalée vers la droite 


▲ Figure 1.14 Distribution 
étalée vers la gauche 


Tl est possible de quantifier l’asymétrie d’une distribution en calculant des coefficients. 
On distingue trois principaux coefficients d’asymétrie (ou coefficients de skewness) : 


■ Le coefficient de Yule : il consiste à comparer l’étalement à gauche et à droite de la 
distribution à l’aide des quartiles : 


(<23-M)-(M-j2i) 
(Qi - M) + (M - Q t ) 


(1.63) 
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Chapitre 1 Distributions à un caractère 


où M est la médiane. Un coefficient de Yule nul correspond au cas de quartiles 
équidistants, signifiant que la distribution est symétrique. Lorsque que le coefficient 
de Yule est positif, la distribution est étalée vers la droite ; lorsqu’il est négatif, elle 
est étalée vers la gauche. 

■ Le coefficient de Pearson, noté /fi : il est donné par : 

2 

/fi = (1.64) 

K 2 

La distribution est symétrique si /fi = 0, étalée vers la droite si /fi >0 et étalée vers 
la gauche si /fi < 0. 

■ Le coefficient de Fisher, noté y\ : il est égal à la racine carrée de /fi : 

y, = = —, 0-65) 

<n 

La distribution est symétrique si y\ = 0, étalée vers la droite si yj >0 et étalée vers 
la gauche si y\ < 0. 

Aplatissement. L’aplatissement nous renseigne sur la relation entre la variation de 
la variable et la variation des fréquences. L’aplatissement s’étudie à partir de la courbe 
des fréquences que l’on compare à la distribution de la loi normale (► figure 1.15). Une 
courbe platykurtique correspond à une distribution aplatie (► figure 1.16), au sens où 
une forte variation de la variable entraine une faible variation de la fréquence et réci¬ 
proquement. Une courbe leptokurtique (► figure 1.17) renvoie au cas d’une distribu¬ 
tion pointue. 



A Figure 1.15 Distribution A Figure 1.16 Distribution aplatie A Figure 1.17 Distribution 

normale (courbe platykurtique) pointue (courbe leptokurtique) 


7 II existe égalemenl un autre coefficient d’asymétrie de Pearson, valable pour des distributions faiblement 
asymétriques, donné par : = ( x - Mode)/cr x . La distribution est symétrique si p\ = 0, étalée vers la droite 

si p\ > 0 et étalée vers la gauche si fi\ < 0 . 
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FO C U S 

La loi normale 


La loi normale, encore appelée loi de Gauss ou 
loi de Laplace-Gauss, est la loi statistique la plus 
répandue. Il s’agit d’une loi de probabilité conti¬ 
nue très utilisée pour modéliser de nombreux phé¬ 
nomènes aléatoires. La courbe des fréquences de 
la loi normale est souvent dénommée « courbe en 


cloche » du fait de sa forme (►- figure 1.15). Une 
distribution normale est caractérisée par un coef¬ 
ficient d’asymétrie nul, cette loi étant symétrique 
par rapport à la moyenne. Les coefficients d’apla¬ 
tissement de Pearson et de Fisher d’une distribu¬ 
tion normale sont respectivement égaux à 3 et 0. 


Deux principaux coefficients d’aplatissement (ou coefficients de kurtosis) peuvent 
être calculés : 


■ 


Le coefficient de Pearson, noté /F : il est donné par : 

F4 


o _ P 4 _ 
P2- — - 

Pi 


V(x) 


2 


( 1 . 66 ) 


Pour une distribution normale, on a /?2 = 3. < 3 est caractéristique d’une courbe 

platykurtique et pi > 3 d’une courbe leptokurtique. 


■ Le coefficient de Fisher, noté y? : 

72 =132 -3 (1.67) 

Pour une distribution normale, on a 72 = 0. 72 < 0 est caractéristique d’une courbe 
platykurtique et 72 > 0 d’une courbe leptokurtique. 


H1 Caractéristiques de concentration 

Les caractéristiques de concentration sont plus particulièrement utilisées pour cer¬ 
taines distributions, comme l’étude des revenus, des salaires, des logements suivant 
leur surface, etc. Ces caractéristiques, qui s’appliquent au cas de variables continues 
à valeurs positives, permettent de mesurer des inégalités. Si l’on s’intéresse aux reve¬ 
nus, on considère qu’une société est parfaitement égalitaire si tous les individus ont le 
même salaire. À l’opposé, une société totalement inégalitaire est telle qu’un individu 
perçoit la totalité des revenus, les autres individus ne percevant aucun revenu. 


2.4.1 Médiale 




La médiale est la valeur x, de x partageant la série du produit n,x, en deux sous- 
ensembles égaux. 


En d’autres termes, il s’agit de la médiane que l’on calcule non plus à partir des seuls 
effectifs n t , mais à partir du produit n,x,-. Si l’on suppose, à titre d’exemple, que la va¬ 
riable étudiée x est le salaire, n,x,- représente la masse salariale. En pratique, on utilise 
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Chapitre 1 Distributions à un caractère 


la différence entre la médiale et la médiane comme un indicateur de concentration. 
Plus spécifiquement, soit À M cette différence : 

AM = Médiale - Médiane (1.68) 

On obtient AM = 0 si la médiane est égale à la médiale, c’est-à-dire lorsque le sys¬ 
tème est parfaitement égalitaire au sens où tous les salariés perçoivent le même salaire 
(concentration nulle). Afin d’apprécier la concentration, on compare AM à la valeur 
de l’étendue. Si la valeur obtenue pour AM est supérieure à l’étendue, cela témoigne 
d’une forte concentration : une faible proportion de salariés perçoit une forte pro¬ 
portion de la masse salariale. À l’inverse, lorsque AM est inférieur à l’étendue, la 
concentration est faible. 


2.4.2 


Courbe de concentration et indice de Gini 


La courbe de concentration consiste à mettre en relation graphiquement les fré¬ 
quences cumulées F(x) de la série x, (en abscisse) et les fréquences cumulées F(N,x) 
de la série (en ordonnée). La courbe s’inscrit dans un carré ABCD représenté sur 
la figure 1.18 appelé carré de Gini. La première bissectrice correspond à une concen¬ 
tration nulle, c’est-à-dire à une parfaite équi-répartition. 

La courbe de concentration est également appelée courbe de Lorenz et l'aire située 
entre cette courbe et la première bissectrice correspond à l'aire de concentration. 
Ainsi, suivant la valeur de cette aire, on disposera d’un indicateur de concentration; 
Faire étant nulle si la médiane est égale à la médiale, c’est-à-dire si la concentration 
est nulle. Les figures 1.19 et 1.20 représentent schématiquement respectivement les 
cas de concentration faible et forte. 


F(N, x) 



▲ Figure 1.18 Courbe de 
concentration 


F(N, x) 



▲ Figure 1.19 Concentration 
faible 


F(N, x) 



▲ Figure 1.20 Concentration 
forte 


Exemple 

Reprenons l’exemple figurant dans le tableau 1.9 relatif au salaire mensuel (en euros) des 
150 salariés de l’entreprise TextpluS. 

La classe médiane est la classe [1 800,2 000[ et l’on peut calculer la valeur précise de la 
médiane au moyen de la relation (1.17) : 

M = 1800+ ^ x [0,5-0,4] = 1 846,51 (1.69) 
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Il existe ainsi autant de salariés percevant moins de 1 846,51 euros que de salariés perce- 

Z mxi 

—— 

L n i x i 

du tableau 1.11, on constate que la classe médiale est identique à la classe médiane, soit 
[1 800,2 000[. La valeur de la médiale, notée Ml, est ainsi donnée par : 


Ml = 1 800 + 


200 

ÔM 


x [0,5 -0,351 = 1868,18 


(1.70) 


▼ Tableau 1.11 Salaire mensuel de 150 salariés, en euros 



[1 400,1 600[ 

26 

1 500 

0,17 

0,17 

39 000 

0,14 

0,14 

[1 600,1 800[ 

34 

1 700 

0,23 

0,40 

57 800 

0,21 

0,35 

[1 800,2 000[ 

65 

1 900 

0,43 

0,83 

123 500 

0,44 

0,79 

[2 000,2 200[ 

8 

2 100 

0,05 

0,89 

16 800 

0,06 

0,85 

[2 200,2 400[ 

10 

2 300 

0,07 

0,95 

23 000 

0,08 

0,94 

[2 400,2 600[ 

7 

2 500 

0,05 

1 

17 500 

0,06 

1 

Total 

150 


1 


277 600 

1 



Les valeurs de la médiale et de la mé¬ 
diane étant très proches, on peut s’attendre 
à une très faible concentration des salaires. 
En comparant l’étendue, 2 600 - 1 400 = 
1200, à la différence entre la médiale et 
la médiane, AM = I 868,18 - 1 846,51 = 
21,67, il ressort une très faible valeur de 
AM par rapport à l’étendue, confirmant 
la faible concentration des salaires. Ce 
résultat peut également être illustré par 
le graphique de la courbe de concentra¬ 
tion (► figure 1.21) : l’aire située entre la 
courbe et la première bissectrice est très 
proche de zéro, confirmant la très faible 
concentration des salaires au sein de l’en¬ 
treprise considérée. 


F(N,x) 



▲ Figure 1.21 Courbe de concentration, sa¬ 
laire mensuel en euros des salariés de l'en¬ 
treprise TextpIuS 


Il est possible de calculer un indice de concentration, appelé indice de Gini et noté G, 
égal au double de l’aire de concentration. Il s’agit d’un nombre sans dimension, com¬ 
pris entre 0 et 1 : 

- Si G = 0, la concentration est nulle. 

- Si G est proche de 0, la concentration est faible. 

- Si G est proche de 1, la concentration est forte. 
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Chapitre 1 Distributions à un caractère 


Les points clés 

Les tableaux et graphiques statistiques permettent de rassembler et synthétiser 
visuellement l’information contenue dans les données étudiées. 


Les caractéristiques de tendance centrale, comme la moyenne, le mode ou la mé¬ 
diane, sont des indicateurs de l’ordre de grandeur des données. 


La variance et l’écart-type permettent de quantifier la dispersion des données ana¬ 
lysées. 


Les indicateurs de concentration permettent de mesurer des inégalités. 



Les différents types de moyennes 


Bien qu’étant la plus utilisée, la moyenne arithmétique 
n’est qu’un cas particulier de la notion de moyenne. 
Il existe d’autres types de moyennes, comme la 
moyenne quadratique, la moyenne géométrique ou en¬ 
core la moyenne harmonique. 

- La moyenne quadratique (pondérée) est donnée 
par : 


Q = 




et est souvent utilisée pour calculer des taux de varia¬ 
tion (ou d’accroissement) moyens ou des moyennes 
de coefficients multiplicateurs. 

La moyenne harmonique (pondérée) est donnée 
par : 

N 


(L7I) 


\ N M 

et est surtout utilisée pour calculer des moyennes 
d’écarts à une tendance centrale (évitant ainsi le cas 
de valeurs négatives grâce à l’élévation au carré). 

- La moyenne géométrique (pondérée) est donnée 
par : 

G = ^c" 1 x x n 2 2 x ... x x n k k (1.72) 


H = 


v* n i 


(1.73) 


Xi 


et est utilisée pour calculer des moyennes de pour¬ 
centages ou de rapports, notamment des vitesses et 
des durées moyennes. 

Notons que les différentes moyennes vérifient les inéga¬ 
lités suivantes : H < G < x < Q. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Variables discrètes et variables continues 

a. Une variable discrète ne prend que des valeurs posi¬ 
tives. 

b. Une variable continue est groupée en classes. 

c. Le chiffre d’affaires d’une entreprise est une variable 
discrète. 

d. Le nombre de salariés d’une entreprise est une va¬ 
riable discrète. 

e. L’âge et la taille sont des variables continues. 

Caractères et modalités 

a. Tout caractère peut avoir une infinité de modalités. 

b. Un même individu peut appartenir simultanément à 
deux (ou plus) modalités. 

c. La taille est un caractère quantitatif, de même que 
l’état matrimonial. 

d. Un caractère quantitatif est tel que les modalités qui 
lui sont associées sont mesurables. 

e. Le département de naissance ainsi que la nationalité 
des individus sont des caractères qualitatifs. 

Graphiques et centre de classe 

a. Un histogramme permet de représenter graphique¬ 
ment une variable continue. 

b. Une variable discrète peut être représentée sous 
la forme d’un diagramme en bâtons ou d’un dia¬ 
gramme en secteurs. 

c. La fonction de répartition est la courbe des fré¬ 
quences. 


d. Lorsque les amplitudes de classes sont différentes, il 
n’est pas nécessaire de les corriger pour représenter 
T histogramme de la distribution correspondante. 

e. Le centre de classe peut être calculé par la formule 

, ...... amplitude 

Xi = extrémité inferieure +-. 

2 

4 Mode 

a. Le mode correspond à la valeur de la série qui par¬ 
tage la population en deux sous-ensembles d’effec¬ 
tifs égaux. 

b. Le mode est la valeur la plus élevée de la série étu¬ 
diée. 

c. Le mode est égal à la somme des observations de la 
série divisée par le nombre d’observations. 

d. Le mode est une caractéristique de dispersion. 

e. Le mode est la valeur de la variable qui correspond à 
l’effectif le plus élevé. 

On considère les notes suivantes (sur 20) obte¬ 
nues par 7 étudiants à l’examen de microéconomie 
en première année : 18, 15, 8,12, 8, 15, 4. 

r . , „ 18+ 15 + 8+ 12 + 4 

a. La moyenne est égalé a ---, soit 

8,14/20. 

b. La note médiane est égale à 12/20. 

c. La distribution est unimodale, le mode étant égal à 

8 / 20 . 

d. L’étendue est égale à 12. 

e. Le moment simple d’ordre 1 est égal à 11,42. 


Exercice 

Caractéristiques d'une distribution 

On considère un échantillon de 166 agences de location 
de voitures dans trois régions du Sud de la France. Le ta¬ 
bleau 1.12 donne le nombre de voitures louées par jour, 
avec les effectifs (nombre d’agences de location) corres¬ 
pondants. 
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T Tableau 1.12 Location de voitures 


Classes (nombre de 
voitures louées) 

Effectifs 

n, 

[0,10[ 

2 

[10,20[ 

19 

[20,30[ 

28 

[30,40[ 

54 

[40,50[ 

31 

[50,60[ 

21 

[60,70[ 

11 

Total 

166 


1. La variable étudiée « Nombre de voitures louées » 
est-elle discrète ou continue ? 

2 . Calculer les centres de classes, les fréquences et les 
fréquences cumulées. 

3 . Quel type de graphique peut-on utüiser pour repré¬ 
senter la série étudiée ? 

4 . Calculer le mode. 

5 . Quel est le nombre moyen de véhicules loués par 
jour ? 

6 . Calculer la médiane. 

7 . Déterminer la valeur de l’écart-type de l’échantillon 
considéré. 

Sujet d'examen 

Université Paris Ouest, extrait 

On considère une entreprise dont la répartition des sala¬ 
riés par tranche de salaire (en euros) est reportée dans le 

tableau 1.13. 

1. Quel est l’effectif total de l’entreprise ? 

2 . En rajoutant autant de colonnes que nécessaire dans 
le tableau 1.13, calculer : 

- les centres de classes (x,) ; 


- les amplitudes de classes (a,) ; 

- les fréquences (/) ; 

- les fréquences cumulées (F,) ; 


- la masse salariale (n,x,) ; 

i n ‘ x > 

- le rapport —-; 

Z/=] 


- lera PP ort È^77- 

;= i Zj;=i n i- l i 

3 . Calculer le salaire moyen au sein de l’entreprise 
considérée. 


4 . Déterminer la classe modale et la valeur du mode. 

5 . Déterminer l’étendue de la variable étudiée. 

6 . Détenniner la classe médiane et calculer la valeur de 
la médiane. 


7 . Au regard des valeurs prises par les caractéristiques 
de tendance centrale précédemment calculées, que 
peut-on en déduire quant à la forme de la distribu¬ 
tion des salaires au sein de l’entreprise considérée ? 

8 . Déterminer la classe médiale et calculer la valeur de 
la médiale. 


9 . Calculer le rapport : 

Médiale - Médiane 


(1.74) 


Etendue 

Que peut-on en conclure quant à la concentration des 
salaires dans cette entreprise ? Ce résultat était-il pré¬ 
visible ? Pourquoi ? 


▼ Tableau 1.13 Répartition des salariés par tranche 
de salaire 


Numéro 
de classe / 

Classes 
de salaires 

Effectifs 

(ni) 

1 

[1 200,1400[ 

3 

2 

[1 400,1 600[ 

6 

3 

[1 600,1 800[ 

182 

4 

[1 800,2 000[ 

5 

5 

[2 000,2 200[ 

4 
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Chapitre 



S i l’on étudie la répartition des salariés au sein 
d'une entreprise non plus seulement selon 
leur niveau de salaire, mais également selon 
l’âge, il s’agit d’une distribution à deux carac¬ 
tères : le salaire et l’âge. Si l’on analyse la réparti¬ 
tion des salariés de cette même entreprise en fonc¬ 
tion simultanément du niveau de salaire, de l’âge 


et de la catégorie socio-professionnelle, il s’agit 
d’une distribution à trois caractères, et ainsi de suite. 
Nous nous limiterons ici à l’étude des distributions à 
deux caractères , sachant que l’exposé peut être ai¬ 
sément généralisé aux distributions à plus de deux 
caractères. 



LES GRANDS 

AUTEURS 


Karl Pearson (1857-1936) 

Mathématicien et statisticien britannique, Karl Pearson est fréquemment considéré 
comme l'un des pères de la statistique moderne. Co-fondateur de la célèbre revue 
Biometrika, il est en particulier connu pour ses travaux sur la notion de corrélation. 
Concept issu de la biologie et introduit en statistique par Francis Galton, la corrélation 
consiste à étudier la liaison existant entre deux ou plusieurs variables. La mesure de 
l'intensité de ce lien a été formalisée par Karl Pearson en 1896 au travers du coeffi¬ 
cient de corrélation linéaire, défini comme le rapport de la covariance entre deux 
variables sur le produit de leurs écarts-types. 

Proche collaborateur de Pearson, George Udny Yule (1871-1951), célèbre statisticien 
écossais, publia également de nombreux articles sur les notions de corrélation et de 
dépendance statistique, mais en s'écartant de Pearson quant à l'interprétation et aux 
hypothèses retenues. ■ 


1 Comme dans le chapitre I, nous étudions ici des variables statistiques et non pas des variables aléatoires 
(► chapitre 6). Les distributions correspondantes sont donc des distributions empiriques, de même que leurs 
caractéristiques associées (fréquences empiriques, moyennes empiriques, variances empiriques, covariance 
empirique, etc.). Toutefois, afin de ne pas alourdir la présentation, le terme « empirique » sera généralement 
omis dans la suite du chapitre. 
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■ Distributions 

à deux 
caractères 


Plan 

n Tableaux statistiques à deux dimensions et représentations 


graphiques. 36 

H Caractéristiques des distributions à deux caractères. 42 

El Liens entre deux variables : régression et corrélation. 46 


Pré-requis 

> Connaître l'ensemble des concepts étudiés dans le chapitre 1. 

Savoir calculer les caractéristiques d'une distribution empirique présentées 
au chapitre 1 (notamment la moyenne, la variance et l'écart-type). 


Objectifs 

Construire un tableau statistique à double entrée permettant de synthétiser 
l'ensemble de l'information pertinente et nécessaire à l'analyse du phénomène 
considéré. 

Croiser l'information afin d'étudier la distribution des effectifs de chaque 
modalité d'un caractère suivant les modalités de l'autre caractère. 

Analyser et quantifier la relation entre deux variables. 

-> Évaluer l'intensité de la liaison entre deux variables. 
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Partie 1 Statistique descriptive 


D ans la mesure où deux variables seront considérées simultanément, par 
exemple le salaire et l’âge ou le salaire et la catégorie-socio-professionnelle, 
il sera possible de s’interroger sur l’existence de liens ou de relations entre 
les données. Ainsi, le salaire augmente-t-il avec l’âge? Quel est le degré de dépen¬ 
dance du niveau de salaire à la catégorie socio-professionnelle à laquelle appartiennent 
les salariés ? À niveau de qualification égal, le salaire est-il différent selon la région 
dans laquelle exerce le salarié? Le taux de réussite des étudiants à l’université est-il 
fonction de la catégorie socio-professionnelle de leurs parents ? La rémunération des 
étudiants diplômés à l’issue de la deuxième année de master est-elle fonction de la 
discipline principale de leur cursus universitaire ? 

Répondre à ces diverses questions nécessite de déterminer si les variables sont liées 
entre elles. Cela nous conduira à l’analyse de régression et l’étude de la corrélation. 


D Tableaux statistiques 
à deux dimensions 
et représentations graphiques 


1.1 


Un exemple introductif 


Reprenons l’étude de l’origine sociale des étudiants à l’université initiée au premier 
chapitre en complétant l’analyse par l’ajout de diverses informations. Considérons 
ainsi le tableau 2.1 donnant la répartition des étudiants français dans les principales 
filières universitaires (y compris IUT) selon leur origine sociale en 201 1-2012. 

Le tableau 2.1 est un tableau à double entrée, encore appelé tableau à deux dimen¬ 
sions ou tableau de contingence : les lignes donnent l’origine sociale (8 modalités) et 
les colonnes sont relatives à la filière de l’étudiant (6 modalités). Les ligne et colonne 
intitulées « Total » sont appelées marges. Les valeurs figurant dans les cases sont les 
effectifs et deux lectures du tableau peuvent être réalisées. À titre d’exemple, sur un 
total de 171061 étudiants en droit, 15 192 sont issus du milieu ouvrier. De même, sur 
un total de 123 347 étudiants issus du milieu ouvrier, 15 192 sont inscrits dans la filière 
« droit ». Plus généralement, à partir des marges du tableau, il est possible de définir 
deux types de distributions (empiriques) : 

■ Si l’on associe la ligne «Total » (marge horizontale) et la première ligne du ta¬ 
bleau donnant les différentes filières, on obtient la distribution des 1 187 763 étu¬ 
diants selon la filière suivie. Par exemple, sur les 1 187 763 étudiants considérés, 
140205 sont inscrits en économie. On parle de distribution marginale : il s’agit 
de la distribution empirique marginale du caractère « filière ». Réciproquement, si 
l’on associe la colonne « Total » (marge verticale) et la première colonne du tableau 
donnant l’origine sociale, on obtient la distribution des 1 187 763 étudiants selon 
leur origine sociale. Ainsi, sur les 1 187 763 étudiants considérés, 21 258 sont issus 
du milieu agricole. Il s’agit ici de la distribution marginale des étudiants selon leur 
origine sociale. 
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Chapitre 2 Distributions à deux caractères 


■ Le calcul des pourcentages en ligne et en colonne nous permet de croiser l’infor¬ 
mation contenue dans les deux caractères, c’est-à-dire d’étudier la distribution des 
étudiants (i) selon la filière pour chaque origine sociale et (ii) selon leur origine 
sociale dans chaque filière. 


T Tableau 2.1 Origine sociale des étudiants à l'université en 2011-2012 


Filière 

Origine social^"""- 

Droit 

Économie 

Lettres 

Sciences 

Santé 

IUT 

Total 

Agriculteurs 

2 543 

2 665 

5 508 

4 788 

2 999 

2 755 

21 258 

Artisans, 
commerçants, 
chefs d'entreprise 

15 384 

12 029 

22819 

16379 

11 784 

9 549 

87 944 

Professions 
libérales, 
cadres supérieurs 

60 732 

34 867 

91 046 

72 033 

74984 

29 620 

363282 

Professions 

intermédiaires 

18 008 

14 666 

47 672 

33 135 

20 887 

16862 

151230 

Employés 

19 984 

17 186 

47 543 

30359 

14173 

15 323 

144 568 

Ouvriers 

15192 

16601 

39061 

27 097 

10406 

14990 

123347 

Retraités, inactifs 

24 368 

21 506 

58154 

27 257 

16119 

9415 

156819 

Non renseigné 

14 850 

20685 

45 079 

23 579 

30 201 

4921 

139315 

Total 

171061 

140205 

356 882 

234627 

181553 

103 435 

1 187763 

Source : Ministère de l'Enseignement Supérieur et de la Recherche, MESR (DGESIP-DGRI-SIES). 




Le tableau 2.2, basé sur le calcul des pourcentages en ligne, donne ainsi pour chacune 
des 8 modalités du caractère « origine sociale » la distribution des étudiants selon la 
filière. En d’autres termes, il s’agit de la distribution des étudiants entre les différentes 
filières conditionnellement à (c’est-à-dire sachant) leur origine sociale. On constate 
que 31,67 % des étudiants provenant du milieu ouvrier sont inscrits en lettres, alors 
que seuls 8,44 % d’entre eux sont inscrits dans la filière « santé ». On parle ici de 
distribution conditionnelle : il s’agit de la distribution empirique conditionnelle des 
étudiants selon la filière pour chaque origine sociale. 

De façon similaire, le tableau 2.3, reportant les valeurs des pourcentages en colonne, 
donne la distribution conditionnelle des étudiants selon leur origine sociale au sein de 
chaque filière : 41,3 % des étudiants inscrits en santé sont issus de professions libérales 
et cadres supérieurs, alors que seuls 1,65 % d’entre eux sont issus du milieu agricole. 

Cet exemple met en évidence l’intérêt des tableaux à deux dimensions puisqu’ils 
offrent la possibilité d’étudier la distribution des effectifs de chaque modalité d’un 
caractère suivant les modalités de l’autre. Les sections suivantes généralisent les no¬ 
tions abordées dans le cadre de cet exemple. 
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T Tableau 2.2 Distribution conditionnelle des étudiants selon la filière pour chaque origine sociale 


_ Filière 

Origine sociale --_ 

Droit 

Économie 

Lettres 

Sciences 

Santé 

IUT 

Total 

Agriculteurs 

11,96 

12,54 

25,91 

22,52 

14,11 

12,96 

100 

Artisans, commerçants, chefs d'entreprise 

17,49 

13,68 

25,95 

18,62 

13,40 

10,86 

100 

Professions libérales, cadres supérieurs 

16,72 

9,60 

25,06 

19,83 

20,64 

8,15 

100 

Professions intermédiaires 

11,91 

9,70 

31,52 

21,91 

13,81 

11,15 

100 

Employés 

13,82 

11,89 

32,89 

21,00 

9,80 

10,60 

100 

Ouvriers 

12,32 

13,46 

31,67 

21,97 

8,44 

12,15 

100 

Retraités, inactifs 

15,54 

13,71 

37,08 

17,38 

10,28 

6,00 

100 

Non renseigné 

10,66 

14,85 

32,36 

16,92 

21,68 

3,53 

100 

Total 

14,40 

11,80 

30,05 

19,75 

15,29 

8,71 

100 


▼ Tableau 2.3 Distribution conditionnelle des étudiants selon l'origine sociale dans chaque filière 


—___ Filière 

Droit 

Économie 

Lettres 

Sciences 

Santé 

IUT 

Total 

Origine sociale 








Agriculteurs 

1,49 

1,90 

1,54 

2,04 

1,65 

2,66 

1,79 

Artisans, commerçants, chefs d'entreprise 

8,99 

8,58 

6,39 

6,98 

6,49 

9,23 

7,40 

Professions libérales, cadres supérieurs 

35,50 

24,87 

25,51 

30,70 

41,30 

28,64 

30,59 

Professions intermédiaires 

10,53 

10,46 

13,36 

14,12 

11,50 

16,30 

12,73 

Employés 

11,68 

12,26 

13,32 

12,94 

7,81 

14,81 

12,17 

Ouvriers 

8,88 

11,84 

10,95 

11,55 

5,73 

14,49 

10,38 

Retraités, inactifs 

14,25 

15,34 

16,30 

11,62 

8,88 

9,10 

13,20 

Non renseigné 

8,68 

14,75 

12,63 

10,05 

16,63 

4,76 

11,73 

Total 

100 

100 

100 

100 

100 

100 

100 


1.2 


Forme générale des tableaux 
à deux dimensions 


Considérons un échantillon composé de N individus, chacun d’entre eux étant doté de 
deux caractères. Notons ces deux caractères (ou variables) x et y comportant respecti¬ 
vement r et s modalités : X|, X 2 ,..., x ( -, x r et y \, i/ 2 ».... y -,,y s . Afin de construire 
le tableau statistique correspondant, il convient de comptabiliser les individus ayant 
simultanément les modalités x,- et yj pour i = l,...,r et j = Le nombre ob¬ 

tenu, noté riij, correspond à l’effectif des individus caractérisés simultanément par les 
modalités x, et yj. On reporte alors les valeurs des effectifs dans un tableau à deux di¬ 
mensions (► tableau 2.4), les modalités de x figurant en ligne, celles de y en colonne. 
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T Tableau 2.4 Tableau statistique à deux dimensions 


yj 

Xi 

yi 

yi 

Y) 

Ys 

Total 

X\ 

n n 

n u 

n V 

nu 

ni. 

Xi 

n 2 i 

n 22 

n 2j 

n 2s 

n 2 . 

\ 






Xi 

n/ 1 

n /2 

mj 

n /s 

nu 

l 






X r 

n r i 

n r2 

n rj 

n„ 

n r . 

Total 

n. i 

n.2 

n.j 

n. s 

n„ 
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1 . 2.1 


Effectifs 


La forme générale d’un tableau statistique à deux dimensions telle que celle présentée 
dans le tableau 2.4 appelle quelques précisions concernant les notations utilisées. Dans 
les marges (ligne et colonne « Total »), l’indice sur lequel est opéré la sommation est 
remplacé par un point. Ainsi, si l’on considère la ligne i du tableau, n-„ correspond à 
somme des effectifs de cette ligne (appelés effectifs marginaux de x) : 

.y 

rij. = n,i + hq + ... + n, 7 + ... + n is = n i} (2.1) 

7=1 

De même, n.j correspond à la somme des effectifs de la colonne j (c’est-à-dire aux 
effectifs marginaux de y), la somme étant effectuée sur l’indice i : 

r 

Yl mJ — ÏÏ2j + ... + flij ■+■ ... + Yl r j — ^ ^ fïij (2.2) 

i=1 

Si Ton effectue la somme ligne par ligne de l’ensemble des lignes, on obtient : 


/• .S' 

n... = n u + n 2 . + ... + «/. + ... + n r . = V ^ (2.3) 

i=l ./=! 


soit finalement : 

r 

n.. = '^n i . = N (2.4) 

i=i 

Par un calcul similaire et en effectuant la somme colonne par colonne de l’ensemble 
des colonnes, il vient : 


n - = TjTj ni j = Tj n -i =N 


7=1 1=1 


7=1 


(2.5) 


En résumé, n„ correspond donc à l’effectif total de la population considérée N : 

r s 

n.. = ^ ni. = ^ n.j = N (2.6) 

1=1 7=1 
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1.2.2 1 Fréquences 


Tout comme pour les distributions à un caractère, il est possible de calculer des fré¬ 
quences (empiriques) dans le cas des distributions à deux caractères et de reporter 
leurs valeurs dans les tableaux. C’est ce que nous avons effectué dans le cadre de notre 
exemple au sein des tableaux 2.2 et 2.3. Les fréquences sont désormais associées, non 
plus à une seule modalité, mais au couple de valeurs (jc i,yj). La fréquence fj corres¬ 
pond ainsi à la proportion d’individus présentant simultanément les modalités x ( - et y j 
et est donnée par : 


fij = 


N 


n.. 


(2.7) 


Emfifiüés 

En utilisant les mêmes notations que pour les effectifs, on déduit les propriétés sui¬ 
vantes pour les fréquences : 

- Le total des fréquences de la ligne i est donné par : 


f * - 2> “ X /y ~ /V 


7=1 


7=1 


( 2 . 8 ) 


- Le total des fréquences de la colonne j est donné par : 

f = y f = 

Jv Z-r‘7 Z-i a/ N 


i=i i=i 
- La somme des fréquences est égale à 1 : 


X5> = 2> = 2>=' 

i=l /=i i=i 7=1 


(2.9) 


( 2 . 10 ) 


On constate ainsi que les fréquences f. et f %j sont définies par le rapport entre les 
effectifs marginaux et l’effectif total, elles sont appelées fréquences marginales : f. 
(respectivement f. t ) est la fréquence empirique marginale de la modalité x t (resp. y j ) 
du caractère x (resp. y). À titre d’exemple, en reprenant les données du tableau 2.1, il 
apparaît que : 

ti 2| 2^8 

- /i. = —- = - 1 — = 0,018 : 1,8 % des étudiants considérés sont issus du 

n.. 1 187 763 

milieu agricole. 

h 234 62V 

- f. 4 = — = , = 0,1 975 : 19,75 % des étudiants considérés sont inscrits 

n.. 1 187 763 

dans la filière « sciences ». 

Les fréquences marginales se rapportent ainsi aux distributions à une dimension 
puisque la distribution marginale suivant le caractère x ne fait pas intervenir le ca¬ 
ractère y ; de même pour la distribution marginale suivant le caractère y qui ne tient 
pas compte du caractère x. 

Si l’on considère à présent simultanément l’information contenue dans les deux carac¬ 
tères x et y, on peut calculer des fréquences conditionnelles. La fréquence empirique 
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conditionnelle de x selon y, notée fi/j, correspond à la proportion d’individus présen¬ 
tant la modalité x, parmi les individus présentant uniquement la modalité ijj : 

ria 

flj = — (2.11) 

n.j 

Si l’on reprend le tableau 2.3, on constate que 14,49 % des étudiants inscrits en 
IUT proviennent du milieu ouvrier. De façon équivalente, on peut dire que sur les 
103435 étudiants inscrits en IUT, 14990 sont issus du milieu agricole (c> tableau 2.1). 
De façon générale, les différentes fréquences conditionnelles pour une même moda¬ 
lité Xj du caractère x donnent la distribution conditionnelle de x selon y. 

On définit de même la fréquence conditionnelle de y selon x, notée fj/i, comme la 
proportion d’individus présentant la modalité y y parmi les individus présentant uni¬ 
quement la modalité x, : 

ttn 

fj/i = — (2.12) 

ni. 

En reprenant les données des tableaux 2.1 et 2.2, il apparaît que parmi les 87 944 étu¬ 
diants issus du milieu « artisans, commerçants, chefs d’entreprise », 22 819 sont ins¬ 
crits dans la filière « lettres ». De façon similaire, 25,95 % des étudiants issus du milieu 
« artisans, commerçants, chefs d’entreprise » sont inscrits dans la filière « lettres ». De 
façon générale et comme précédemment, les différentes fréquences conditionnelles 
pour une même modalité y, du caractère y donnent la distribution conditionnelle de y 
selon x. 


Propriétés 


nelles est égale à l’unité : 


De même que pour toutes les fréquences, la somme des fréquences condition 

±f«>-± n fr' 


(2.13) 


i=i 


i=i 


et : 


= = 1 (2I4) 

j =i j =i " 

- Les fréquences conditionnelles et marginales sont liées par la relation : 

fj = fi. x fj/i = f.j x f/j (2.15) 


1.3 


Représentations graphiques 


Comme dans le cas des distributions à un caractère (► chapitre 1 ), le type de représen¬ 
tation graphique adéquat pour les distributions à deux caractères dépend de la nature 
des caractères étudiés. Les caractères pouvant être qualitatifs, quantitatifs discrets ou 
quantitatifs continus, trois principaux cas peuvent se présenter : 


2 Notons qu'il existe de très nombreux autres types de graphiques que ceux mentionnés ici. comme les 
diagrammes cartésiens, les cartogrammes, les diagrammes de fréquences... Le lecteur intéressé pourra no¬ 
tamment consulter les ouvrages de Grais (2003) ou Py (2007). 
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■ Les deux caractères étudiés sont qualitatifs. Dans ce cas et comme pour les distri¬ 
butions à un caractère, on peut utiliser les représentations en tuyaux d’orgue ou par 
secteurs. La figure 2.1 donne ainsi la représentation en tuyaux d’orgue des données 
reportées dans le tableau 2.1. La distribution marginale selon l’origine sociale est 
représentée parles hauteurs (et les surfaces) des tuyaux d’orgue. À l’intérieur de ces 
tuyaux, on représente par des rectangles les effectifs figurant dans le tableau ; la hau¬ 
teur (et la surface) de chaque rectangle donnant la valeur de l’effectif correspondant. 


ç 

i 



A Figure 2.1 Origine sociale des étudiants à l'université en 2011-2012, représentation 
en tuyaux d'orgue 


■ Les deux caractères étudiés sont quantitatifs. On utilise alors en général des séries 
d’histogrammes ou des stéréogrammes, ces derniers étant des histogrammes à trois 
dimensions (effectifs ou fréquences, modalités du caractère x, modalités du carac¬ 
tère y). 

m Un caractère est qualitatif, l’autre est quantitatif. On utilise des représentations en 
tuyaux d’orgue ou des diagrammes en bâtons. 



Caractéristiques des distributions 
à deux caractères 


Dans la mesure où il existe deux types de distributions, marginales et condition¬ 
nelles, il est possible de déterminer des caractéristiques pour chacune de ces deux 
distributions. 


2.1 


Caractéristiques des distributions 
marginales 
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Les caractéristiques marginales du caractère x se déterminent à partir de la distribution 
marginale de ce même caractère, c’est-à-dire à partir des r modalités x, et des r effec- 
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tifs marginaux i = 1 De façon similaire, les caractéristiques marginales de 
y s’obtiennent à partir de la distribution marginale de ce même caractère, c’est-à-dire 
à partir des s modalités yj et des s effectifs marginaux n.j, j = 1v. On peut ainsi 
définir : 

■ La moyenne (empirique) marginale de x : 

r 

.Xj = y f.Xj (2.16) 

/=i 

■ La moyenne (empirique) marginale de y : 

j * S 

9 = — J n.jyj = ^ f.jÿj (2.17) 

7=1 7=1 

■ La variance (empirique) marginale de x : 

i r . r 

V(x) = — V riiXxi -x ) 2 = — V tii.x 2 - x 2 ( 2 . 18 ) 

n.. x-j 

i=i i=i 

■ La variance (empirique) marginale de y : 

1 x Y ^ 1 -‘ S 1 

v(y) = — y n.j(ÿj - y) 2 = — y n.jy 2 - ÿ 2 (2. 19) 

7=1 " 7=1 


Il 

l=\ 


2.2 


Caractéristiques des distributions 
conditionnelles 


Contrairement aux distributions marginales, les caractéristiques des distributions 
conditionnelles tiennent compte des modalités des deux caractères. De façon pratique, 
on se donne une modalité d’un caractère, par exemple y n et l’on étudie la façon dont 
l’effectif de cette modalité se distribue entre l’ensemble des modalités de l’autre ca¬ 
ractère, x. Les caractéristiques conditionnelles de x selon y sont ainsi déterminées à 
partir des s distributions conditionnelles de x selon y, c’est-à-dire à partir des r mo¬ 
dalités de x et des s colonnes d’effectifs du tableau à deux dimensions associées à ces 
r modalités. De façon similaire, les caractéristiques conditionnelles de y selon x sont 
obtenues à partir des r distributions conditionnelles de y selon x, c’est-à-dire à partir 
des s modalités de y et des r lignes d’effectifs du tableau à deux dimensions associées 
à ces s modalités. On peut dès lors définir : 

- Les moyennes (empiriques) conditionnelles de x selon y : 

1 vn r i 

Xj = — 2_J n *J x ‘ = y filj x i (2.20) 

n,J ;=i ;= i 

- Les moyennes (empiriques) conditionnelles de y selon x : 

j S S 

ÿi - — y n uy.i = y fjny.i (2-21 ) 

i -1 1 
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- Les variances (empiriques) conditionnelles de x selon y : 

Vj(x) = -J- ^ n u (Xi - Xj ) 2 = n,]Xl ‘ ~ Xj2 (2 ' 22) 

• J 1=1 i= i 

- Les variances (empiriques) conditionnelles de y selon x : 

Vi(y) = — Y Hijiyj - ÿif = — Y riijy) - gr (2.23) 

y=l n “ 7=1 

Il est possible de mettre en évidence des relations entre (i) les moyennes marginale 
et conditionnelle et (ii) les variances marginale et conditionnelle. 

- Relations entre les moyennes : 

1 


*• 7=1 

1 = — y ni.Çi 


- Relations entre les variances : 


V(x) = — V n.jixj - x) 2 + — V Vj(x)n.j 

7=1 7=1 

variance des moyennes conditionnelles xj moyenne des variances conditionnelles Vj{x) 


(2.24) 

(2.25) 

(2.26) 


1 

V(y) = — ) J rii.{ÿi - ÿ) 

n 

- /=i 


— y Vi(y)nu (2.27) 


variance des moyennes conditionnelles y , moyenne des variances conditionnelles Vj(y) 


soit encore : 


et : 


V(x) = V(Xj) + Vj(x) 


(2.28) 


V(y) = V(ÿi) + Vi(y) (2.29) 

La variance marginale est ainsi égale à la somme de la variance des moyennes 
conditionnelles et de la moyenne des variances conditionnelles. La dispersion de 
la distribution marginale est donc fonction de la dispersion entre les moyennes 
conditionnelles et de la dispersion de chacune des distributions conditionnelles 
autour de leur moyenne . 


3 Dans le cas où l’on étudie une population (par exemple des pays) composée de deux (ou plusieurs) sous- 
populations (pays développés et pays en développement), la variance des moyennes est également appelée 
variance inter-population et la moyenne des variances, variance intra-population. 
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2.3 


Covariance et notion de dépendance 


Lorsque l’on étudie des distributions à deux caractères, on cherche généralement à 
quantifier le lien entre ceux-ci. Ce point fera l’objet d’une étude approfondie dans 
la section suivante, nous présentons ici un indicateur fréquemment calculé : la cova¬ 
riance. Ainsi que nous le verrons par la suite, cet indicateur servira dans l’étude de la 
corrélation entre deux variables. 


Définition 2.1 

La covariance (empirique) entre les variables x et y, notée Cov(x,y), est donnée 
par : 

1 r s 

Cov(x,y) = — ^ ^ n^Xj - x)(yj - ÿ) (2.30) 

i=\ 7=1 

soit encore, sous forme développée : 

1 r s 

Cov(x,y) = — ^ ^ riijXiyj - xÿ (2.31 ) 

i=1 y=1 

Comme nous l’étudierons dans la section suivante, l’analyse de régression permettra 
de quantifier le lien entre deux variables. 


FOCUS 

La notion de dépendance 


Trois types de liens ou de liaisons peuvent être mis 
en évidence à partir de l’étude simultanée de deux 
caractères : 

- Lorsque les deux variables x et y ne présentent 
aucun lien entre elles, c’est-à-dire si les varia¬ 
tions d’une variable ne s’accompagnent pas de 
variations de l’autre variable, on dit que x et 
y sont indépendantes. Dans ce cas, les fré¬ 
quences conditionnelles sont égales aux fré¬ 
quences marginales : 

fi/j = A et /;/;=/., (2.32) 

et les moyennes marginales et conditionnelles 
sont identiques pour chacune des deux va¬ 
riables. 

- Si à chaque valeur de x correspond une et une 
seule valeur de y parfaitement déterminée et ré¬ 
ciproquement, on dit que les variables x et y 
sont totalement (ou parfaitement) dépendantes 


ou encore qu’il existe une liaison fonctionnelle 
entre x et y. Dans ce cas, les moyennes condi¬ 
tionnelles sont égales aux valeurs des variables, 
soit : 

xj = Xi et ÿi = yj (2.33) 

- En pratique, dans la plupart des cas, les phé¬ 
nomènes étudiés se situent entre ces deux cas 
extrêmes : les variables ne sont pas indépen¬ 
dantes, mais ne sont pas non plus parfaite¬ 
ment dépendantes. On parle alors de corréla¬ 
tion. Lorsque les deux variables x et y évoluent 
dans le même sens, on parle de corrélation po¬ 
sitive. Lorsque les deux variables évoluent en 
sens contraire (l’une augmente quand T autre di¬ 
minue), on parle de corrélation négative. Ce cas 
est étudié en détail dans la section qui suit via 
l’analyse de régression. 
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Liens entre deux variables : 
régression et corrélation 


Ainsi que nous l’avons précédemment 
mentionné, le recours aux distributions à 
deux caractères rend possible l’étude du 
lien entre les deux variables considérées. 
Notons, pour toute la suite du chapitre, x 
et y ces deux variables et supposons que 
celles-ci soient observées sur les N indi¬ 
vidus statistiques i étudiés, i = 1 
N désigne donc le nombre d’observations. 
La variable x prend en conséquence les 
valeurs x\,...,Xj,...,XN et la variable y les 
valeurs y\y^- Pour chaque indi¬ 
vidu i, on observe ainsi deux mesures. 

Considérons, à titre d’exemple, un échan¬ 
tillon de 26 pays i (i = 1 avec N = 
26) pour lesquels on observe les deux va¬ 
riables suivantes pour l’année 2010 : le 
taux d’investissement en pourcentage du 
PIB, noté Xi, et le taux de croissance écono¬ 
mique (exprimé en pourcentage), noté yi, 
avec i = 1,...,26. Les données sont repor¬ 
tées dans le tableau 2.5. 


T Tableau 2.5 Taux d'investissement 
en pourcentage du PIB et taux de 
croissance économique en 2010 sur un 
échantillon de 26 régions ou pays 



15,39 

2,45 

23,18 

5,15 

17,91 

2,72 

23,73 

5,32 

18,07 

2,87 

24,07 

4,68 

18,15 

2,95 

24,37 

5,95 

18,58 

2,11 

25,34 

4,64 

18,97 

2,50 

28,08 

6,91 

19,20 

2,03 

29,20 

5,22 

20,92 

5,04 

30,24 

7,82 

21,22 

4,96 

31,57 

7,70 

21,64 

5,84 

31,76 

7,74 

21,72 

5,44 

32,22 

7,72 

21,93 

5,62 

33,57 

9,53 

22,11 

6,03 

43,15 

9,67 


Source : World Bank, Word Development Indi- 
cators (WDI). 


Au niveau économique, il est raisonnable de penser que les variables sont liées, l’in¬ 
vestissement étant souvent considéré comme un moteur de la croissance. Une façon 
simple d’appréhender cette relation est de représenter graphiquement le nuage de 


points, c’est-à-dire l’ensemble des couples 
{Xi,yi) ainsi que l’illustre la figure 2.2. Les 
valeurs du taux d’investissement sont repor¬ 
tées en abscisse, celles du taux de croissance 
en ordonnée. On constate que le nuage de 
points exhibe une forme allongée, les points 
semblant relativement peu dispersés dans 
le plan ( x,y ). Plus spécifiquement, il appa¬ 
raît une relation croissante entre les deux 
variables : lorsque le taux d’investissement 
augmente, la croissance augmente et réci¬ 
proquement. On parle dans ce cas de cor¬ 
rélation positive entre les variables, corré¬ 
lation que nous quantifierons dans la suite 
de l’exposé. 
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▲ Figure 2.2 Nuage de points, taux 
d'investissement et taux de croissance 
économique 
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Chapitre 2 Distributions à deux caractères 


3.1 


L'analyse de régression et le principe 
des moindres carrés ordinaires 


FOCUS 

Analyse de régression et économétrie 


L’analyse de régression renvoie à un ensemble 
de méthodes visant à analyser la relation existant 
entre deux ou plusieurs variables. Plus spécifique¬ 
ment, si l’on considère le cas de deux variables x 
et y, l’objectif est d’expliquer la variable y (appe¬ 
lée variable expliquée) par la variable x (appelée 
variable explicative). Il existe plusieurs types de 
modèles de régression, le plus connu étant le mo¬ 
dèle de régression linéaire : y = ax + b où a et 
b sont des constantes désignant respectivement le 
coefficient de pente de la droite de régression de y 
sur x et l’ordonnée à l’origine. A titre d’exemple, 
un tel modèle peut être utilisé comme représenta¬ 
tion de la fonction de consommation keynésienne : 
C = cR + co où C désigne la consommation, R 
est le revenu, c et cq sont des paramètres tels que 
0 < c < 1 et co > 0, c désignant la propension 
marginale à consommer. 

Ce modèle de régression linéaire traduit l’exis¬ 
tence d’une relation (linéaire) croissante entre la 


consommation et le revenu (c est positif), l’ac¬ 
croissement de la consommation étant moindre 
que celui du revenu (c est inférieur à 1 ), confor¬ 
mément à la loi psychologique fondamentale de 
Keynes. L’analyse de régression est l’une des mé¬ 
thodes les plus utilisées en statistique et en écono¬ 
métrie. 

De façon générale, l’économétrie renvoie à la 
mesure des phénomènes économiques et permet 
d’analyser, d’estimer et de vérifier, c’est-à-dire de 
tester, les phénomènes et théories économiques. 
L’économétrie constitue ainsi une branche de la 
science économique qui fait appel conjointement 
à la théorie économique, la statistique, les mathé¬ 
matiques et l’informatique. En tant que discipline, 
elle est née en 1930 lors de la création de la Société 
d’économétrie par Ragnar Frisch, Charles Roos et 
Irving Fisher . 


3.1.1 I Principe général 

Afin de mettre plus clairement en évidence et de quantifier la relation entre nos deux 

variables, le taux d’investissement et le taux de croissance économique, il convient de 

« résumer» le nuage de points, c’est-à-dire de représenter dans le plan (x,y) l’allure 

générale de la distribution à deux caractères. A cette fin, la méthode la plus utilisée 

consiste à ajuster le nuage de points par une droite (D), comme cela est reproduit sur 

la figure 2.3. On parle de droite de régression ou de droite d’ajustement ou encore 

de droite des moindres carrés. La droite (D) ne passant pas par tous les points du 1 1 ^El- 

nuage, il existe naturellement des écarts entre les points du nuage et les points situés * Voir p. 59 

sur cette droite. 


4 Le lecteur intéressé par P économétrie pourra notamment consulter les manuels de Gouriéroux et Mon- 
fort (1989), Greene (2005) ou Mignon (2008). 
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A Figure 2.3 Taux d'investissement et A Figure 2.4 Ajustement du nuage de 
taux de croissance économique, ajus- points par une droite de régression 

tement du nuage de points par une 
droite 


Plus généralement, comme reproduit sur la figure 2.4, notons ÿ ,■ l’ordonnée d’un point 
de la droite (D) dont l’abscisse est x, et désignons par e-, les écarts entre la valeur 
observée y, de y et la valeur y, située sur la droite : 

et = yi - ÿi (2-34) 

L’expression de la droite de régression est alors donnée par : 

y, = axj + b (2.35) 

où a et b sont des constantes, et le problème consiste à identifier la droite (D) qui 
ajuste au mieux le nuage de points considéré. En d’autres termes, il s’agit de trouver 
la droite (D) telle que les écarts e- t soient les plus faibles possibles, c’est-à-dire telle 
que les valeurs ÿi situées sur la droite soient les plus proches possibles des valeurs 
observées y t . 

La méthode des moindres carrés ordinaires (MCO) nous permet précisément de 
répondre à cet objectif puisqu’elle consiste à trouver la droite (D), c’est-à-dire les va¬ 
leurs des paramètres a et b, telles que la somme des carrés des écarts e, soit minimale. 
Notons que l’on cherche à minimiser la somme des carrés des écarts et non pas direc¬ 
tement les écarts puisque ceux-ci pouvant prendre des valeurs positives et négatives 
(et nulles), ils peuvent se compenser de sorte que leur somme - et donc leur moyenne 
- reste proche de zéro. 


de régression 

Afin de déterminer la valeur des paramètres (ou coefficients) a et b de la droite de 
régression, on applique le principe des MCO consistant à minimiser la somme des 
carrés des écarts. On cherche ainsi à minimiser l’expression suivante par rapport aux 
paramètres a et b : 

N N 

^ ef = ^({/, - axj - b) 2 (2.36) 

(=1 i=i 


3.1.2 Détermination de I équation de la droite 
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Les paramètres a et b de la droite de régression sont donnés par : 

Cov(x,y) 


a = 


V(x) 


et 


b = y - ax 


V{x) désignant la variance de x et Cov(x,y ) la covariance entre x et y : 

V(x) =iïZ (xi -* )2 = ]ïÊ x ï -* 2 


;=i 


i=i 


1 N j N 

Cov(x,y) = — ^(x, - x)(y, - ÿ) = — ^ x,t/ ( - 


xy 


(2.37) 


(2.38) 


(2.39) 


i=1 i=I 

Le paramètre a est la pente de la droite de régression de y sur x, b désignant l’or¬ 
donnée à l’origine. 

Démonstration 

N 

On cherche à minimiser l’expression S - i/, - ctx, - b) 2 par rapport à fl et b. À cette fin, 

t= 1 

on annule les dérivées partielles de S par rapport à a et b, soit : 


dS_ 

da 


dS 


= -2 iji - axi - b)Xi = 0 


i=i 

N 


-=-2j](y i - ax i- b ) = 0 


/=! 


On obtient alors un système de deux équations à deux inconnues : 


X X ‘ y ‘ = a X ^ + h Yj X ‘ 


;=i 


i'=l i=l 

N 


(2.40) 

(2.41) 

(2.42) 

(2.43) 


^ y, = a ^ Xi + Nb 

r=i i=i 

En divisant les deux membres de l’équation (2.43) par N, il vient : 

ÿ = ax + b (2.44) 

stipulant que la droite de régression passe par le point moyen de coordonnées (x,ÿ). 
On en déduit la valeur de b : 

b - ÿ - ax (2.45) 

En remplaçant b par son expression dans l’équation (2.42), on obtient : 

N N N 

^ x;iji = fl ^ x? + (ÿ - ax) ^ Xi (2.46) 

1=1 1=1 1=1 

Soit encore, en remplaçant x et ÿ par leurs expressions : 


N j N N 


/=1 i=l i= 1 i=l 

Sachant que la variance de x est donnée par : 

N t N 


N . N 

Z- 


. N N ( N 

i=l 1=1 V i -1 


(2.47) 


(2.48) 
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et que la covariance entre x et y est définie par : 

, N | n 

Cov(x,y) = — ^ xiiji - xÿ = — ^ x,y, 



on en déduit que la relation (2.47) peut s’exprimer comme suit : 

NCov(x,y) = aNV(x) 

D’où la valeur recherchée pour a : 


a = 


Cov(x,ij) 

V(x) 


(2.49) 


(2.50) 

(2.51) 


Si l’on reprend l’exemple de la relation entre le taux d’investissement et le taux de 
croissance économique (► tableau 2.5), on peut calculer les divers indicateurs néces¬ 
saires à la détermination de a et b : 

- Moyenne du taux de croissance : ÿ = 5,33 

- Moyenne du taux d’investissement : x = 24,47 

- Covariance entre le taux d’investissement et le taux de croissance : 

Cov(x,y) = 12,14 

- Variance du taux d’investissement : V(x) = 39,11 

On obtient alors aisément les valeurs des paramètres de la droite de régression : 

a = = 0,31 et b = 5,33 - 0,31 X 24,47 = -2,26 (2.52) 

D’où l’équation de la droite de régression reportée sur la figure 2.3 : 

y = 0,3lx- 2,26 (2.53) 

On constate ainsi que la valeur de a est positive, illustrant bien l’existence d’une rela¬ 
tion positive entre les deux variables : lorsque le taux d’investissement augmente, la 
croissance augmente également toutes choses égales par ailleurs. 


3.2 


Mesure du degré de liaison 
entre deux variables et qualité 
d # une régression 


3.2.1 


Coefficient de corrélation linéaire 


Le coefficient de corrélation linéaire est un nombre sans dimension permettant de 
quantifier le degré de liaison (linéaire) entre deux variables. Il s’agit ainsi d’un indi¬ 
cateur du degré de proximité entre les points du nuage et ceux figurant sur la droite de 
régression. 
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Définition 2.2 


Le coefficient de corrélation linéaire r(x,y) entre les variables v et y est donné 


par : 


r(x,y) = 


Cov(x,y) 


(T r cr,, 


(2.54) 


où cr x et (T y désignent respectivement les écarts-types de x et y. 


Le coefficient de corrélation linéaire est compris entre -1 et 1 : 

— 1 < r(x,y) < 1 (2.55) 

Le coefficient de corrélation linéaire est : 

- positif si les variables x et y évoluent dans le même sens ; la corrélation étant d’au¬ 
tant plus forte que r(x,y) est proche de 1. Les couples de points (x,y) sont alors 
concentrés autour d’une droite croissante, ainsi que cela est reproduit sur les fi¬ 
gures 2.5 et 2.6. 


x ’v.r 

* ï # * 

X v x 

x ^ / x v x 

x y £ 

X * 

Xx x * 

y x* x 
y* x. x x 

XL X \ 

x x x 

y x * 



▲ Figure 2.5 Coefficient de corrélation ▲ Figure 2.6 Coefficient de corrélation 

linéaire positif linéaire égal à 1 


- négatif si les variables x et y évoluent en sens contraire ; la corrélation (négative) 
étant d’autant plus forte que r{x,y) est proche de -1. Les couples de points (x,y) 
sont alors concentrés autour d’une droite décroissante, comme représenté sur les 
figures 2.7 et 2.8. 


X 

NJ** 


*, * ï 
x H % 

X x x £\ v y 
X* xX 

X X \ X^ 

* x *% 



▲ Figure 2.7 Coefficient de corrélation ▲ Figure 2.8 Coefficient de corrélation 

linéaire négatif linéaire égal à -1 
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- nul si les variables x et y ne sont pas liées linéairement entre elles (► figure 2.9). 
Le nuage de points est alors dispersé dans le plan (x,y) et il n’est pas possible de 
l’ajuster par une droite autre que la droite horizontale y = b (parallèle à l’axe des 
abscisses). 


y 



A Figure 2.9 Coefficient de corrélation linéaire nul 


Le calcul du coefficient de corrélation linéaire entre le taux d’investissement et le taux 
de croissance pour notre échantillon de 26 pays (► tableau 2.5) donne : 

12,14 


r(x,y) = 


= 0,90 


(2.56) 


6,27x2,16 

r(x,y) est ainsi relativement proche de 1, témoignant d’une corrélation positive impor¬ 
tante entre le taux d’investissement et le taux de croissance économique dans notre 
échantillon. 


Quelques précisions peuvent être apportées quant à l’interprétation du coefficient de 
corrélation linéaire : 


■ Un coefficient de corrélation linéaire égal à zéro n’implique pas nécessairement une 
absence de corrélation entre les deux variables étudiées. 11 peut en effet exister une 
forte corrélation non linéaire entre les variables, qui ne peut être prise en compte, 
par définition, par une droite de régression. 

■ Une valeur élevée du coefficient de corrélation (proche de 1 en valeur absolue) n’im¬ 
plique pas nécessairement une forte dépendance entre les deux variables considé¬ 
rées. Il se peut en effet qu’une troisième variable agisse sur les deux variables étu¬ 
diées, conduisant mécaniquement à une valeur élevée du coefficient de corrélation . 

■ Corrélation et causalité sont deux concepts différents qu’il convient de ne pas 
confondre : le calcul du coefficient de corrélation linéaire entre les variables x et y 
nous permet de dire si ces deux variables sont ou non liées entre elles, mais ne nous 
permet pas d’établir un lien de causalité 1 . En d’autres termes, il ne permet pas de 
déterminer si x cause (c’est-à-dire impacte) y ou si y cause x. 


5 Un exemple illustratif peut être donné par les ventes de crèmes glacées et le nombre de noyades. Tl serait 
incorrect de déduire, de l'observation d’une hausse des valeurs prises par ces deux variables durant l'été, 
l'existence d'une corrélation entre les deux séries. Ces deux variables ne sont en effet liées entre elles que 
par l'influence d'une troisième variable : la température, qui est plus élevée en été. 

6 Cela peut en outre être illustré par le fait que deux droites de régression peuvent être associées au même 
coefficient de corrélation linéaire : la droite de régression de y sur x (y = ax + b) et la droite de régression 
de x sur y (x = a'y + b’). 
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3.2.2 I Qualité d'une régression 

Même si r(x,y) nous permet d’apprécier le degré de corrélation linéaire entre x et y, il 
est possible de recourir à un indicateur plus général permettant de mesurer l’intensité 
de la liaison entre deux variables. Cet indicateur, appelé coefficient de détermination, 
reste valable en cas de corrélation non linéaire et permet en outre d’apprécier la qualité 
d’une régression. Son expression est issue de l’équation d’analyse de la variance. 

Équation d'analyse de la variance. Ainsi que nous l’avons vu, la variance mar¬ 
ginale est égale à la somme de la variance des moyennes conditionnelles et de la 
moyenne des variances conditionnelles. Considérons nos deux variables x et y pour 
un échantillon de i individus, i = 1 La variance marginale de y correspond à la 
variance totale (ou globale) de la série à une dimension, c’est-à-dire de la variable y. 
La variance des moyennes conditionnelles de y indique, par définition, la dispersion 
des moyennes conditionnelles entre elles. Il s’agit ainsi des moyennes des valeurs y, 
pour chaque valeur de x. En d’autres termes, la variance des moyennes conditionnelles 
de y mesure la dispersion sur la droite de régression : c’est la variance expliquée par 
la régression. La moyenne des variances conditionnelles de y représente la dispersion 
moyenne des distributions conditionnelles de r/ : il s’agit de la dispersion moyenne 
des points autour de la droite de régression. En d’autres termes, c’est la variance qui 
n’est pas expliquée par la régression, on l’appelle variance résiduelle. On en déduit 
l’équation suivante : 

Variance totale = Variance expliquée + Variance résiduelle (2.57) 

soit encore : 

V(y) = V(y) + V(e) (2.58) 

où y est la valeur située sur la droite de régression, îf = ax + b (où a et b sont supposés 
estimés par la méthode des MCO), et e désigne l’écart entre la valeur observée de y et 
y, e = y - y. L’écart e porte également le nom de résidu et y de valeur estimée (ou 
ajustée) de y. L’équation (2.58) est connue sous le nom d’équation d’analyse de la 
variance. 

La qualité d’une régression est ainsi d’autant meilleure que la variance expliquée par 
cette régression est élevée et, donc, que la variance résiduelle est faible. En d’autres 
termes, plus la variance expliquée est proche de la variance totale, meilleure est la 
régression. Il est possible de quantifier cela par le calcul d’un rapport, c’est-à-dire 
d’un nombre sans dimension, appelé coefficient de détermination. 

Coefficient de détermination. Le coefficient de détermination se définit comme 
suit. 


Définition 2.3 

Le coefficient de détermination, noté R 1 , est défini comme le rapport entre la 
variance expliquée et la variance totale (ou marginale) : 


r-, Variance expliquée ^ Variance résiduelle 


Variance totale 


soit encore 


R- = 


V(Ù) 

V(y) 


= 1 - 


Variance totale 

Vie) 

V(y) 


(2.59) 


(2.60) 
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Le coefficient de détermination mesure ainsi la part ou le pourcentage de variance ex¬ 
pliquée par la régression : il fournit une mesure du pouvoir explicatif de la régression. 
On a par construction : 

0</? 2 <l (2.61) 

Trois principaux cas peuvent alors se présenter : 

■ Un coefficient de détermination égal à 0 signifie que la variance expliquée est nulle : 
la régression n’explique pas le nuage de points, les variables x et y ne sont pas liées 
entre elles. 


■ Un coefficient de détermination égal à 1 correspond au cas où la variance expliquée 
est égale à la variance totale : la régression explique parfaitement le lien entre x et 
y et la droite d’ajustement passe par tous les points du nuage. 

■ Dans le cas général, le coefficient de détermination prend une valeur située entre ces 
deux extrêmes. Plus la valeur de R 2 est proche de 1, plus la variance expliquée est 
proche de la variance totale et meilleure est la qualité de la régression. 


Dans le cas d’une régression linéaire entre deux variables x et y , il est également 
possible d’exprimer le coefficient de détermination par la relation suivante, aisément 
utilisable en pratique : 


R 2 = 


Cov(x,y) 2 


(2.62) 


V(x)Viy) 

et correspondant au carré du coefficient de corrélation linéaire entre x et y 
R 2 = r 2 (x,y'). 


Démonstration 

Afin de démontrer la relation (2.62), reprenons l’équation (2.60) : 

V(y) 


R - = 


V(y) 


(2.63) 


On sait que y = ax + b, d'où V(ij) = V(ax + b) = a 2 V(x) (d’après la propriété de la variance 
selon laquelle V(ax + b) = V(aX) = a 2 V(x)). Par ailleurs, nous avons vu que a ^ 

On en déduit donc : 


V(x) 


D'où : 


I7/ „, Cou(x,y) 2 

V(9)= VU) 

(2.64) 

2 Cov(x,y) 2 

A — 

(2.65) 

V(x)V(ij) 

■ 


En utilisant la relation (2.62), le calcul du coefficient de détermination associé à la 
régression du taux de croissance sur le taux d’investissement (►tableau 2.5) nous 
donne : 


R 2 = 


12,14 2 


= 0,81 


( 2 . 66 ) 


39,11 x 4,65 

On en déduit que le taux d’investissement explique 81 % de la variance du taux de 
croissance économique. 
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Les points clés 

Un tableau à double entrée permet de définir les distributions marginales et condi¬ 
tionnelles des deux variables étudiées, les distributions conditionnelles tenant 
compte simultanément de l’information contenue dans les deux variables. 


L’analyse de régression permet de quantifier le lien entre deux variables x et y 
en ajustant le nuage de points formé des valeurs du couple (x,y) par une droite, 
appelée droite de régression. 


Les coefficients de la droite de régression sont obtenus par la méthode des 
moindres carrés ordinaires. 


La coefficient de corrélation linéaire est un indicateur du degré de liaison linéaire 
entre deux variables. 


L’équation d’analyse de la variance et le coefficient de détermination sont utilisés 
pour juger de la qualité d’une régression. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Distributions marginales et conditionnelles 

a. La distribution marginale de la variable x tient 
compte de l’information contenue dans la deuxième 
variable étudiée, y. 

b. Les distributions conditionnelles de chacune des 
deux variables, x et y, croisent l’information conte¬ 
nue dans ces deux variables. 

c. Contrairement aux fréquences marginales, la somme 
des fréquences conditionnelles est toujours égale à 
l’unité. 

d. Les fréquences marginales et conditionnelles sont 
liées entre elles uniquement si les variables x et y 
sont dépendantes l’une de l’autre. 

e. Dans un tableau à double entrée et sans prendre en 
compte la marge verticale, la somme colonne par co¬ 
lonne de l’ensemble des colonnes est égale à l’effec¬ 
tif total. 

Liaison entre deux variables 

a. Deux variables indépendantes sont telles que si l’une 
augmente, l’autre diminue. 

b. Deux variables corrélées évoluent dans le même 
sens. 

c. Les moyennes marginales et conditionnelles sont 
identiques pour chacune des deux variables étudiées 
si celles-ci sont indépendantes l’une de l’autre. 

d. Les moyennes conditionnelles sont égales aux va¬ 
leurs des variables dans le cas d’une liaison fonc¬ 
tionnelle entre x et y. 

e. Lorsque y croît quand x décroît, on dit que les va¬ 
riables sont corrélées négativement. 


Droite de régression et ajustement 

a. La droite de régression passe par tous les couples 
(x,y) du nuage de points. 

b. La droite de régression passe par le point de coor¬ 
données (Je, ÿ). 

c. La droite qui ajuste le mieux le nuage de points est 

telle que la somme des écarts entre les valeurs obser¬ 
vées iji de y et les valeurs y t situées sur la droite est 
nulle, i = 1. N. 

d. Dans l’expression de la droite de régression, 
y - ax + b, h désigne le coefficient de pente. 

e. Les paramètres a et h de la droite de régression sont 
obtenus par la méthode des moindres carrés ordi¬ 
naires. 

4 Coefficient de corrélation linéaire 

a. Un coefficient de corrélation linéaire égal à -1 té¬ 
moigne d’une absence de corrélation entre les va¬ 
riables étudiées x et y. 

b. Un coefficient de corrélation linéaire supérieur à 1 
témoigne d’une très forte corrélation entre x et y. 

c. Si le coefficient de corrélation linéaire r(x,y) est égal 
à 1, on peut en déduire que x influence y. 

d. Si r(x,y) = 0, les variables x et y n’ont aucun lien 
entre elles. 

e. Plus un nuage de points a une forme allongée, plus 
la corrélation entre les deux variables est forte. 

Analyse de la variance et coefficient de détermi¬ 
nation 

a. L’équation d’analyse de la variance est telle que la 
variance expliquée est égale à la différence entre la 
variance marginale et la variance résiduelle. 

b. Le coefficient de détermination permet déjuger de la 
qualité d’une régression. 

c. Le coefficient de détermination est égal au rapport 
entre la variance résiduelle et la variance totale. 

d. Le coefficient de détermination est compris entre -1 

et I. 

e. Plus la variance résiduelle est faible, meilleure est la 
qualité d’une régression. 
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Chapitre 2 Distributions à deux caractères 


Exercice 


Étude de la liaison taux de chômage/taux 
d'inflation 

On considère un échantillon de 30 pays. On cherche à 
étudier, pour ces 30 pays, le lien entre le taux d’infla¬ 
tion et le taux de chômage. La figure 2.10 reproduit le 
nuage de points formé des couples (x,y) où x désigne 
le taux de chômage et y le taux d’inflation. On donne 
par ailleurs les statistiques suivantes, i désignant le pays 
(/ = 1,...,30) : x = 6,71 et ÿ = 4,74; V(x) = 4,64 et 

30 

V(y)= 1,51 et ^ xiiji = 881,01. 

i=\ 


y 


S 5%- 


4 %- 


3 %- 


x 


X X 

*k * x* 
X x x 

X 


2 %H-1-1-1--x 

4% 6% 8% 10% 

Taux de chômage 

▲ Figure 2.10 Nuage de points, relation taux de 
chômage/taux d’inflation 


1. Que peut-on dire du lien éventuel entre les deux va¬ 
riables au regard de la figure 2.10 ? Ce résultat est-il 
attendu d’un point de vue économique ? 

2 . Calculer la covariance entre les deux variables. 

3 . En déduire la valeur du coefficient de corrélation li¬ 
néaire entre les deux variables. 

4 . Déterminer les valeurs des coefficients a et b de la 
droite de régression ÿ = ax + b. 

5 . Calculer la valeui - du coefficient de détermination. 
Commenter. 


Sujet d'examen 

Université Paris Ouest, extrait 

On considère trois séries mensuelles du taux de change 
du dollar (exprimées en logarithme) sur la période allant 
de janvier 1990 à avril 2004. On désigne par : 


- EUR,, le taux de change (au mois t ) du dollar vis-à- 
vis de l’euro ; 

- DKK,, le taux de change (au mois /) du dollar vis-à- 
vis de la couronne danoise ; 

- ATS,, le taux de change (au mois t) du dollar vis-à-vis 
du schilling autrichien. 

avec l = I,..., 172. On donne par ailleurs diverses va¬ 
leurs figurant dans le tableau 2.6. 

▼ Tableau 2.6 Statistiques sur les séries de taux de 
change 


Variable 

Moyenne 

Écart-type 

EUR t 

-0,1227 

0,1278 

DKK, 

1,8942 

0,1242 

ATS, 

2,4998 

0,1304 


Somme des carrés 

172 


Y EUR] = 5,3820 

t=1 

172 

Y DKK t = 619,7721 

t=1 

172 

Yj ATs2 t = 1077,7743 

t=1 


Somme des produits 

172 


Y E UR,xDKK t = -37,3106 

f=1 

172 


Y EUR, x ATSt = -49,9646 

t=1 


172 

Y DKK, x ATS t = 817,2116 

t=i 


1. Calculer les coefficients de variation des trois séries. 
Commenter. 

2 . Calculer les coefficients de corrélation entre DKK 
et EUR d’une part, puis entre DKK et ATS d’autre 
part. Commenter les résultats obtenus. 

3 . On considère le modèle mettant en relation DKK et 
EUR. 

a. Déterminer, par la méthode des moindres carrés 
ordinaires, les valeurs des coefficients a et b de la 
droite de régression DKK, - aEUR, + b. 

b. Selon ce modèle, quel est l’effet d’une augmen¬ 
tation de 1 % du taux de change du dollar vis-à-vis 
de l’euro sur celui du dollar vis-à-vis de la couronne 
danoise ? 

c. On désigne par e, le / lcmc résidu de l’ajustement 

172 

obtenu et on donne '■ Yj e * ~ 0,1169. En écrivant 

i=i 

l’équation d’analyse de la variance, déterminer la va¬ 
leur de la variance expliquée. Quelle est la part de la 
variance résiduelle dans la variance totale ? 
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d. Calculer et interpréter la valeur du coefficient de 
détermination de la régression. 

e. Que devient le coefficient a si l’on multiplie par 
10 toutes les valeurs observées des variables EUR 
et DKKl Même question si, au lieu de multiplier 
par 10, on ajoute 10 à chacune des valeurs observées 
des deux variables. 

4 . On s’intéresse désormais à la relation entre DK K 
et ATS. L’application de la méthode des MCO a 


conduit aux résultats suivants : DKK, = 0,9474 x 
ATS,-0,4741. Sachant que la variance de la variable 
ajustée de ce modèle est égale à 0,0153, calculer la 
valeur de la somme des carrés des résidus. Calculer 
le coefficient de détermination de cette nouvelle ré¬ 
gression. 

5 . Comparer les résultats numériques obtenus pour les 
deux modèles qui font l’objet des questions 3 et 4 
ci-dessus et conclure. 
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EL OUR A LLE R P L US LOM SL 

Terme d'erreur d'un modèle de régression 


Nous avons considéré dans ce chapitre un modèle de 
régression linéaire faisant intervenir deux variables. Si 
l’on reprend le cas de la fonction de consommation key¬ 
nésienne, on peut représenter celle-ci pour une date / 
donnée sous la forme du modèle C, = cR, + Co où C, dé¬ 
signe la consommation (variable expliquée) à la date t, 
R, est le revenu (variable explicative) à la même date, c 
et co étant des paramètres. Cette écriture revient à sup¬ 
poser que la consommation est expliquée uniquement 
par le revenu. Si une telle relation est exacte, il est très 
aisé d’obtenir les valeurs des paramètres c et co : il suf¬ 
fit en effet de disposer de deux observations et de les 
joindre au moyen d’une droite, les autres observations 
se situant sur cette même droite. Un tel schéma n’est 
cependant pas représentatif de la réalité économique et 
le fait que seul le revenu intervienne comme variable 
explicative dans le modèle peut sembler très restrictif 
dans la mesure où il est fort probable que d’autres va¬ 
riables expliquent la consommation (comme le taux de 
chômage, le taux d’intérêt, etc.). En l’absence d’infor¬ 
mation supplémentaire, on rajoute alors un terme s, qui 
représente l’ensemble des autres variables explicatives 
qui ne figurent pas dans le modèle. Le modèle s’écrit : 

C, = cR, + cq + (2.67) 

Le terme s, est une variable aléatoire appelée er¬ 
reur ou perturbation. 11 s’agit de Y erreur de spéci¬ 
fication du modèle, dans la mesure où elle rassemble 
toutes les variables, autres que le revenu, qui n’ont pas 
été prises en compte pour expliquer la consommation. 


Le terme d’erreur fournit ainsi une mesure de la diffé¬ 
rence entre les valeurs observées de la consommation et 
celles qui devraient être observées si le modèle était cor¬ 
rectement spécifié. Notons que le terme d’erreur désigne 
non seulement l’erreur de spécification du modèle, mais 
peut également représenter une erreur de mesure liée 
à des problèmes de mesure des variables (explicatives) 
considérées. 

Le terme d’erreur d’un modèle de régression n’est pas 
observable, mais il doit vérifier un certain nombre d’hy¬ 
pothèses afin que la méthode des moindres carrés ordi¬ 
naires puisse être mise en oeuvre : 

- Le terme d’erreur et la variable explicative ne sont 
pas liés entre eux. En d’autres termes, la variable ex¬ 
plicative ne dépend pas du terme d’erreur, il s’agit 
d’une variable certaine au sens où elle est observée 
sans erreur. 

- L’espérance mathématique de l’erreur est nulle. Cela 
revient à admettre, qu’en moyenne, le modèle est cor¬ 
rectement spécifié et donc, qu’en moyenne, il n’y a 
pas d’erreur. 

- La valeur du terme d’erreur à une date t ne dépend 
pas de sa valeur à une date f avec t ï t'. Cette hypo¬ 
thèse est celle de non autocorrélation des erreurs. 

- La variance du terme d’erreur est constante sur l’en¬ 
semble de l’échantillon étudié. Celte hypothèse est 
connue sous le nom d’homoscédasticité des erreurs. 
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Chapitre 



E n économie et en finance, comme dans beau¬ 
coup d’autres domaines, les variables ou gran¬ 
deurs représentatives des phénomènes étudiés 
varient au cours du temps et dans l’espace. Ainsi, 
les prix à la consommation fluctuent d’un mois sur 
l’autre (variation au cours du temps), mais égale¬ 
ment entre les pays (variation dans l’espace). Il en 
est de même du cours des actions, du pouvoir d’achat 
des ménages, du prix des logements, de la confiance 
des consommateurs, etc., qui sont des grandeurs qui 


varient au cours du temps et entre les pays, les ré¬ 
gions, les catégories socio-professionnelles, etc. 

Afin de comparer une même grandeur dans deux 
situations (dates, périodes, pays, régions, etc.), on 
choisit une de ces situations comme référence et l’on 
calcule un indice. Étant indépendant des unités rela¬ 
tives aux phénomènes étudiés, un indice permet de 
comparer l’évolution de grandeurs de natures diffé¬ 
rentes (prix des logements et salaire, par exemple). 



LES GRANDS 

AUTEURS 


Irving Fisher (1867-1947) 

Irving Fisher est un économiste mathématicien américain, professeur à l'Université 
de Yale. Outre ses nombreuses contributions à la théorie économique sur les questions 
ayant trait à la valeur, le capital, les taux d'intérêt, la monnaie et l'instabilité financière, 
il est l'auteur en 1922 d'un ouvrage The Making of Index Numbers (Houghton Mifflin, 
Boston). 

Dans ce livre, il présente l'indice qui porte son nom. Cet indice, défini comme une 
moyenne géométrique des indices de Laspeyres et de Paasche, a pour but de pallier 
les inconvénients de ces deux indices en représentant un compromis entre ceux-ci. ■ 
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Plan 

il Indices élémentaires. 62 

Fl Indices synthétiques . 65 

B Raccords d'indices et indices chaînes. 73 

El Hétérogénéité et effet qualité . 76 


Pré-requis 

Connaître les opérations mathématiques de base et la notion de moyenne 
(► chapitre 1). 

-» Savoir interpréter un pourcentage. 

Objectifs 

Synthétiser l'information contenue dans une grandeur économique en construi¬ 
sant un indice résumant l'évolution des prix et un indice résumant l'évolution des 
quantités relative à cette grandeur. 

Comparer l'évolution de grandeurs de natures différentes, ainsi que l'évolution 
d'une grandeur dans deux situations différentes. 

Agréger un ensemble de valeurs hétérogènes au sein d'un même indice. 

Mettre en évidence des variations de prix et de quantités liées à un change¬ 
ment de qualité. 
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D eux catégories d’indices peuvent être distinguées selon le type de grandeur 
étudiée. Ainsi, si l’on considère le prix d’un produit, la production d'une en¬ 
treprise donnée, le cours de l’action d’une société particulière, il s’agit de 
grandeurs simples au sens où la grandeur est un nombre ne prenant qu’une seule 
valeur dans une situation donnée. Les indices calculés sur la base de ces grandeurs 
sont appelés indices élémentaires. En revanche, le niveau général des prix, la produc¬ 
tion industrielle, le cours des actions sont des grandeurs complexes dans la mesure 
où leur calcul nécessite d’agréger un ensemble de valeurs hétérogènes (prix des dif¬ 
férents produits, production de diverses industries, cours de différentes actions). Les 
indices calculés sur la base de ces grandeurs sont appelés indices synthétiques. 



Indices élémentaires 

Quelques exemples introductifs 

Considérons l’évolution du prix de vente annuel (en euros) du kilogramme de fraises 
en France de 1998 à 2013. Les valeurs, reportées dans le tableau 3.1, mettent en évi¬ 
dence une tendance haussière du prix de vente. Supposons que l’on souhaite quantifier 
cette hausse entre 2000 et 2013. À cette fin, il suffit d’effectuer le rapport suivant : 

, 9,69 


/ 2013/2000 - 


5,61 


= 1,7273 


(3.1) 


’ Tableau 3.1 Prix de vente du kilogramme de fraises et SMIC brut 


Date 

Prix de vente fraises (euros) 

SMIC (euros par 

1998 

5,29 


1999 

5,36 


2000 

5,61 


2001 

6,55 

6,53 

2002 

7,21 

6,75 

2003 

7,92 

7,01 

2004 

7,4 

7,4 

2005 

7,84 

7,82 

2006 

7,93 

8,15 

2007 

7,93 

8,36 

2008 

8,53 

8,61 

2009 

8,28 

8,77 

2010 

9,32 

8,86 

2011 

9,51 

9,02 

2012 

9,84 

9,31 

2013 

9,69 

9,43 


Source : INSEE. 
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On en déduit que le prix du kilogramme de fraises a augmenté de 72,73 % entre 2000 
et 2013 en France. Nous venons ici de comparer une même grandeur (prix de vente du 
kilogramme de fraises) à deux dates différentes. 


Les données figurant dans le tableau 3.1 nous permettent également de comparer 
l’évolution du prix de vente des fraises à celle du SMIC horaire. Considérons, à titre 
d’exemple, l’évolution entre 2001 et 2013 de ces deux grandeurs et calculons les rap¬ 
ports suivants : 

9,69 


I 


•fraises _ 
2013/2001 


et : 


I 


■S MIC 
2013/2001 


6,55 

9,43 

6,53 


= 1,4794 


= 1,4441 


(3.2) 


(3.3) 


Il apparaît que le prix du kilogramme de fraises a augmenté légèrement plus fortement 
que le SMIC horaire entre 2001 et 2013, avec une hausse de 47,94 % pour le prix des 
fraises et de 44,41 % pour le SMIC. Ces calculs de rapports rendent ainsi aisée la 
comparaison de l’évolution de deux grandeurs différentes. 


Comme nous l’avons précédemment mentionné, il est également possible de comparer 
une même grandeur dans deux catégories (pays, régions, entreprises, etc.) différentes 
à une même date. Le prix de vente du maïs (en euros par hectare) en 2012 est égal à 
20,47 en Lituanie et il est de 17,49 en Pologne. Le rapport suivant : 


ILituanie/ Pologne 


20,47 

17,49 


= 1,1704 


(3.4) 


nous indique que le maïs coûte 17,04 % plus cher en Lituanie qu’en Pologne. 
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1.2 


Définition 


Les rapports calculés dans les exemples ci-dessus constituent des indices élémen¬ 
taires . 


Définition 3.1 


Considérons une grandeur simple g prenant la valeur go à la date 0 et la valeur g, 
à la date t. On appelle indice élémentaire 7® le nombre sans dimension suivant : 



(3.5) 


La date 0 correspond à la date de référence ou base de l’indice, la date t étant la date 
courante. 

1 Plus précisément, les indices relatifs au prix de vente de la fraise et au SMIC correspondent à des indices 
élémentaires de variation (ou d’évolution). Ces indices permettent de calculer l'évolution d'une même 
grandeur (prix de vente de la fraise, SMIC) entre deux dates différentes (2001 et 2013). Dans les exemples 
du prix de vente du maïs en 2012 en Lituanie et en Pologne, l'indice calculé est un indice élémentaire de 
répartition. Cet indice permet de réaliser des comparaisons entre des catégories différentes (Lituanie et 
Pologne) pour une même grandeur (prix de vente du maïs) et à une même date (2012). Dans la suite, nous 
parlerons simplement d'indice élémentaire. 
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Cet indice (de variation) mesure ainsi l’évolution de la grandeur g entre la date de base 
(date 0) et la date courante (date t) 2 . 

On exprime fréquemment un indice en pourcentage : 

4 = —xl 00 (3.6) 

' 9o 

L’indice à la date t défini dans l’équation (3.6) est ainsi dit exprimé base 100 à la date 
de référence. Notons que si l’on ne multiplie plus par 100 (équation (3.5)), on parle 
d’indice base 1 à la date 0. 


Propriétés 


Reprenons l’exemple précédent du prix du maïs en 2012 en Lituanie et en Pologne et 
supposons que ce prix soit, en 2012, 18 % plus cher en Grèce qu’en Lituanie. On peut 
donc écrire : 

1 Grèce/Lituanie — 1,18 (3.7) 

Sachant que ILituanie/Pologne = 1,1704, il est possible de comparer le prix du maïs en 
Grèce et en Pologne : 

JGrèce/Pologne ~ 1Grèce/Lituanie ILituanie/Pologne ~ 1,18 X 1,1704 — 1,3811 (3.8) 

On en déduit ainsi que le prix du maïs est 38,11 % plus cher en Grèce qu’en Pologne 
en 2012. 

Cet exemple illustre la propriété de circularité ou de transitivité d’un indice élé¬ 
mentaire : 

n. n'. n. 

(3.9) 


70 _ 70 v 70 - Zi w IL - 

,1° r/0 g; go 90 


soit encore : 


F 

j9 _ V> 

/" 

t'/o 


t/t' 


(3.10) 


Cette propriété permet ainsi de comparer les dates 0 et t, d’une part, et les dates 0 et t ', 
d’autre part, mais aussi les dates t et t' (équation (3.10)). Dans ce dentier cas, la date 
de référence est la date t' qui se substitue à la date 0, témoignant d’un changement de 
base. La propriété de circularité peut se généraliser comme suit : 

Ko = K/t -1 x K-\/t -2 x "■ x K/o (3.11) 

et l’on parle alors d’enchaînement : on a une chaîne d’indices élémentaires, ces der¬ 
niers étant dits enchaînables. Les indices élémentaires vérifient également la propriété 
de réversibilité selon laquelle : 

‘ (3.12) 


F = — 

t/0 70 

'o/t 


2 Si l’on considère la grandeur simple cj non plus aux dates 0 et t, mais pour deux catégories différentes (x 
et y) à la même date (par exemple à la date t). la relation / 9 , = — définit F indice élémentaire de répartition. 

m 0.ï 

La valeur de référence, ou base de l’indice, est ici la valeur g x , c’est-à-dire la valeur de la grandeur g prise 
par la catégorie x à la date I. Cet indice de répartition mesure donc la variation relative de la grandeur y 
entre la valeur de référence (catégorie jc) et la valeur de la catégorie y à la date t. Afin de ne pas alourdir 
les développements, on utilisera dans la suite du chapitre la notation générique /‘( n où / désigne la valeur de 
référence de la grandeur g (date de référence pour l’indice de variation, catégorie de référence pour l’indice 
de répartition). 
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Ainsi, sachant que le prix du maïs est 38,11 % plus cher en Grèce qu’en Pologne 
(fGrèce/Pologne = 1,3811), on en déduit que : 

IPologne/Grèce = . = 0,7241 (3.13) 

' Grèce/Pologne 1,3 o 1 1 


c’est-à-dire que le prix du maïs est 27,59 % moins élevé en Pologne qu’en Grèce. 
Remarque : Un indice élémentaire vérifie également les propriétés suivantes : 

- Supposons que la grandeur g soit telle que g = axboùaelb sont deux grandeurs. 
On a alors : 


jV _ job 


t/0 


c = /?,„ x /: 


‘I/O 


I/o ~ ' t/0 
a 


(3.14) 


Supposons que la grandeur g soit telle que g = — où a et b sont deux grandeurs. On 
a alors : 


_ ia/b _ Jl 0 
0/0 t/0 jb 

t/0 


(3.15) 



Indices synthétiques 


En économie, les grandeurs étudiées sont souvent complexes, c’est-à-dire composées 
de plusieurs grandeurs simples qu’il faut agréger ou synthétiser. Ainsi, l’indice des 
prix à la production dans l’industrie fourni par l’INSEE est calculé sur la base des prix 
de 24000 produits. Il s’agit d’un indice synthétique résumant-c’est-à-dire agrégeant 
- les 24 000 indices élémentaires relatifs au prix de chacun des produits considérés. 
Dans la mesure où il existe différentes façons d’agréger une série d'indices élémen¬ 
taires, il existe plusieurs indices synthétiques. 


2.1 


Indices de valeur, des prix et de volume : 
généralités 


En économie, on étudie souvent l’évolution des prix, des quantités et de leur pro¬ 
duit, appelé valeur. Trois types d’indices peuvent alors être calculés : indice des prix, 
indice des quantités (ou indice de volume) et indice de valeur. Considérons une 
grandeur complexe g composée de k éléments : g 1 ,g 2 ,...,g k . Ainsi, si g est l’indice des 
prix à la production, les éléments g 1 ,i = 1 désignent les 24000 produits utilisés 
dans le calcul de l’indice. Soient par ailleurs les notations suivantes : p' 0 et p\ le prix 
respectivement aux dates 0 et t d’un élément g‘, et q l 0 et q\ les quantités respectivement 
aux dates 0 et t de ce même élément g 1 . 


Définition 3.2 

L'indice de valeur /J 0 est donné par le rapport entre la somme des valeurs des 
k éléments g 1 , i = 1 ,...,k, de la grandeur g considérée à la date t et cette même 
somme à la date de référence 0, soit 

X;n‘.a l . 

(3.16) 


v _ ZiP\q\ 
0/0 ~ 


I >P'o c l , o 


3 Afin d'alléger les notations, on utilisera la convention suivante dans tout ce chapitre : ^ 
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FQCUS 


L'indice de valeur 


Notons g' un élément rentrant dans la composition 
de la grandeur complexe g, V, sa valeur (moné¬ 
taire) à la date t, p\ son prix unitaire à la date t 
et q\ sa quantité à la date t. A chaque date, la va¬ 
leur de l’élément g‘ est égale au produit de son 
prix unitaire et de la quantité correspondante, soit 
V) = p\q\ pour la date t et Vq = p' 0 q J, pour la date 0. 
À chaque date, la valeur de la grandeur complexe g 


est égale à la somme des valeurs des éléments g' la 
composant, soit V, = I, V lt = Zip\q\ pour la date t 
et Vo = 2/V/o = Z,p‘ 0 q‘ 0 pour la date 0. L’indice 
de valeur (monétaire) de la grandeur complexe g 
entre la date t et la date 0, /J 0 , est donc égal à 
(équation (3.16)) : 


r.V‘ 

iV _ ,pq _ 

t/0 t/0 y t ri 

^ iV 0 



(3.17) 


Cet indice de valeur est relativement peu informatif au sens où, s’il augmente, il n’est 
pas possible de distinguer si cette hausse provient d’une augmentation des prix ac¬ 
compagnée d’une baisse des quantités ou de toute autre combinaison. Pour pallier 
cette difficulté, on suppose que l’une des deux variables (prix ou quantité) est fixe 
alors que l’autre varie en calculant des indices de prix et de quantités : 

- On calcule un indice des prix en neutralisant l’influence des quantités, c’est-à-dire 
que l’on considère que les quantités sont fixes sur la période considérée. 

- De façon réciproque, un indice des quantités (ou indice de volume) se calcule en 
neutralisant l’influence des prix, c’est-à-dire que l’on considère que les prix sont 
constants sur la période considérée. 

Les indices des prix et des quantités les plus fréquemment utilisés sont les indices de 
Laspeyres et de Paasche que nous présentons ci-après. 

WWM Indices de Laspeyres et de Paasche 

Définitions générales 

Notons a' le poids de l’élément g 1 ( i = l,...,fc) dans la grandeur complexe g. Les 
coefficients a' (/ = 1, ...,k) sont donc des coefficients de pondération. Ainsi, si l’on 
considère l’indice des prix à la consommation des ménages, ces coefficients repré¬ 
sentent la part de chaque bien et service dans la consommation des ménages ; il peut 
s’agir par exemple de la part des dépenses de loyer, la part des dépenses de consom¬ 
mation de poisson, etc. En d’autres termes, dans le cas d’indices des prix, il s’agit de 
coefficients budgétaires. Par définition, on a donc : 

2)4 = Z^ = 1 ( 3 . 18 ) 

Les indices de Laspeyres et de Paasche sont des moyennes pondérées par ces coeffi¬ 
cients a' des indices élémentaires /' /0 relatifs à chaque élément g', i = 1,de la 
grandeur g. 


2.2.1 
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Définition 3.3 

L’indice de Laspeyres L ® 0 est la moyenne arithmétique des indices élémentaires 
pondérée par les coefficients de la date de référence (aj,) : 


^=*,‘4 = 2X5 
% 


(3.19) 


Définition 3.4 


L'indice de Paasche P^ 0 est la moyenne harmonique des indices élémentaires 
pondérée par les coefficients de la date courante (a l t ) : 


p‘> - 

r H o 


1 


Z r 


cr 


i/o 


9, 


(3.20) 


Remarque : Il est important de souligner que les indices élémentaires entrant dans le 
calcul de l’indice synthétique doivent être basés (1 ou 100) à la même date. 


2.2.2 


Indice de Laspeyres 


indice des prix de Laspeyres. Dans le cas de l’indice de Laspeyres, les coefficients 
de pondération sont ceux de la date de référence et sont donnés par : 




(3.21) 


D’après l'équation (3.19), on peut écrire l’indice des prix de Laspeyres L^ () (p) comme 
suit : 


D’où : 


V- iP) r Po% P, 

~ AO" 0 j “A ; ; ; 

Po Z ‘Po9o Pô 

(3.22) 

,c, , . Zp‘q‘ {} 

(3.23) 


Ainsi, les quantités sont constantes (ce sont celles de la date de référence puisque 
nous sommes dans le cas d’un indice de Laspeyres) et seuls les prix varient puisqu’il 
s’agit d’un indice des prix. Cet indice s’interprète comme le rapport entre la dépense 
totale à la date de référence évaluée aux prix courants et la dépense totale de la date 
de référence. 


Si l’on prend l’exemple de l’indice des prix à la consommation, l’indice des prix de 
Laspeyres décrit ainsi l’évolution du prix d’un panier de biens dont la composition est 
restée fixe entre les deux dates et est celle de la date de référence. 


Indice de volume de Laspeyres. Les coefficients de pondération étant donnés par 
l’équation (3.21), on peut écrire en utilisant la relation (3.19) l’indice de volume de 
Laspeyres: 


L^(q) = Z i a i ^=Z i 


9 o 


Pp9 l o 9\ 

E ‘P'o9 o 9o 


(3.24) 
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(3.25) 


Les prix sont constants (ce sont ceux de la date de référence puisque nous sommes 
dans le cas d’un indice de Laspeyres) et seules les quantités varient puisqu'il s’agit 
d’un indice de volume. Cet indice s’interprète comme le rapport entre la dépense totale 
à la date courante évaluée aux prix à la date de référence et la dépense totale de la date 
de référence. 


2.2.3 


Indice de Paasche 


Indice des prix de Paasche. Dans le cas de l’indice de Paasche, les coefficients de 
pondération sont ceux de la date courante et sont donnés par : 


a 


i 

t 



(3.26) 


D’après l’équation (3.20), on peut écrire l’indice des prix de Paasche P® 0 (p) comme 


suit : 


D’où 


P f/o ( P ) = 


I 


I 


Tn ié. yJ^L'A 

p\ ZiPW,p\ 


WP) = 


ZiPWt 


(3.27) 


(3.28) 


Ainsi, les quantités sont constantes (ce sont celles de la date courante puisque nous 
sommes dans le cas d’un indice de Paasche) et seuls les prix varient puisqu’il s’agit 
d’un indice des prix. Cet indice s’interprète comme le rapport entre la dépense totale 
à la date courante et la dépense totale de la date courante évaluée aux prix de la date 
de référence. Si l’on reprend l’exemple de l’indice des prix à la consommation, l’in¬ 
dice des prix de Paasche décrit ainsi l’évolution du prix d’un panier de biens dont la 
composition est celle de la date courante. 


Indice de volume de Paasche. Les coefficients de pondération étant donnés par 
l’équation (3.26), on peut écrire en utilisant la relation (3.20) l’indice de volume de 
Paasche : 


*>) = 


I 


V- ,<70 v- pW, c L 

2 ja, — 2/-— —r 

q‘, ZiPW, q\ 


KoW = 


ZiP\q\ 

ZiPÜo 


(3.29) 


(3.30) 


Les prix sont constants (ce sont ceux de la date courante puisque nous sommes dans 
le cas d’un indice de Paasche) et seules les quantités varient puisqu’il s’agit d’un 
indice de volume. Cet indice s’interprète comme le rapport entre les quantités à la 
date courante évaluées aux prix à cette même date et la dépense totale de la date de 
référence évaluée aux prix courants. 


68 













Chapitre 3 Indices 


2.3 


Indice de Fisher 


Dans la mesure où il n’existe pas de critère permettant de conclure à la supériorité 
d’un des deux indices précédents - Laspeyres et Paasche - par rapport à l’autre, l’idée 
consiste à construire un indice, appelé indice de Fisher, représentant une combinaison 
des indices de Laspeyres et Paasche dont la valeur se situe « entre » celles de ces deux 
indices. 


Définition 3,5 


L’indice de Fisher est défini comme la moyenne géométrique des indices de Las¬ 
peyres et Paasche, soit : 



II? p‘> 

\ f/o //o 


(3.31) 


Il est alors possible de définir : 

■ Un indice des prix de Fisher : 


F ïo(n) = 

yl^PKoW 

(3.32) 

■ Un indice de volume de Fisher : 



= 


(3.33) 
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FOCUS 

Quel indice synthétique privilégier? 


Ainsi que nous l’avons précédemment souligné, il 
n’existe pas de critère général permettant de sta¬ 
tuer sur la supériorité d’un indice synthétique par 
rapport à un autre. Il est cependant possible de pré¬ 
senter les principaux avantages et inconvénients 
de ceux-ci. Supposons que l’on étudie l’évolu¬ 
tion de la consommation d’un panier composé de 
plusieurs biens. Dans le cas de l’indice de Las¬ 
peyres, les coefficients de pondération sont fixes, 
c’est-à-dire que l’on suppose que la structure de 
la consommation ne se modifie pas sur la période 
étudiée. 

En conséquence, si l’on considère que les coeffi¬ 
cients de pondération sont fixés à la date de réfé¬ 
rence, plus la date courante est éloignée de la date 
initiale, plus il est probable que la structure du pa¬ 
nier de biens du consommateur se soit modifiée et 
plus le risque que les coefficients de pondération 


soient obsolètes est important. Pour cette raison, le 
principal inconvénient attribué à l’indice de Las¬ 
peyres est qu’il tend à surestimer l’efFet de l’évo¬ 
lution des prix sur le pouvoir d’achat du consom¬ 
mateur dans la mesure où il ne tient pas compte 
d’éventuelles substitutions entre les biens du pa¬ 
nier considéré. Notons que cet inconvénient a pour 
conséquence que les coefficients de pondération 
de l’indice de Laspeyres sont révisés de façon pé¬ 
riodique. 

Dans le cas de l’indice de Paasche, les coeffi¬ 
cients de pondération sont ceux de la date cou¬ 
rante. Ceux-ci évoluent donc avec les prix, c’est- 
à-dire que la part des différents biens au sein du 
panier considéré évolue en même temps que les 
prix. Le calcul de l’indice de Paasche nécessite en 
conséquence de disposer simultanément des don¬ 
nées relatives aux prix et aux quantités à chaque 
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date considérée (et non plus seulement des prix 
comme dans le cas de l’indice de Laspeyres). Le 
principal inconvénient tient ici en une difficulté 
de calcul supplémentaire liée à la disponibilité 
des données, expliquant pourquoi l'indice de Las¬ 
peyres est plus fréquemment utilisé que l’indice 
de Paasche 1 . Du fait de la variabilité des coeffi¬ 
cients de pondération, l’indice de Paasche tend, 
au contraire de l’indice de Laspeyres, à sous- 
estimer l’effet de l’évolution des prix sur le pou¬ 
voir d’achat du consommateur. Il est important de 
souligner que les modifications de la structure de 
consommation ne dépendent évidemment pas que 
de l’évolution des prix relatifs des biens compo¬ 
sant le panier. Il convient aussi de tenir compte de 
l’évolution des élasticités revenu. 

Ainsi, même si le prix d’un bien diminue, cela 
n’implique évidemment pas que sa part dans la 
consommation va augmenter : pour certains biens 
dont le prix relatif a diminué, une hausse de revenu 
peut se traduire par une baisse de leur consomma¬ 


tion relative (cas des biens inférieurs par exemple). 
Au total, il n’existe donc aucun critère théorique 
permettant de préférer un système de pondération 
par rapport à un autre, tout dépend de la façon dont 
les structures de consommation évoluent. Pour fi¬ 
nir, notons que si les différences entre les pondéra¬ 
tions des indices de Laspeyres et de Paasche sont 
faibles, on a la relation suivante : 


Ko * Ko * Ko 


(3.34) 


Cette inégalité s’obtient en notant que (i) sous 
l’hypothèse de coefficients de pondération égaux 
entre les deux indices, les indices de Laspeyres 
et de Paasche sont respectivement des moyennes 
arithmétique et harmonique d’indices élémen¬ 
taires et (ii) la moyenne harmonique d’une série 
est toujours inférieure à la moyenne arithmétique 
de cette même série. Il est donc important de sou¬ 
ligner qu’en cas de différences non négligeables 
entre les coefficients de pondération, cette inéga¬ 
lité n’a plus lieu d’être vérifiée. 


ESI Application empirique 

Supposons que l’on souhaite calculer un indice synthétique du prix et des quantités 
d’un bouquet énergétique composé de pétrole, gaz naturel et charbon pour l’année 
2012. L’année de référence retenue est 1990. On dispose, pour ces deux dates, du prix 
et de la quantité consommée en France pour chacune des trois énergies. Ces données 
sont reportées dans le tableau 3.2. 


T Tableau 3.2 Pétrole, gaz naturel et charbon : prix et quantités consommées en France 


Énergie / 

Prix en 1990 p' 0 

Prix en 2012 p' t 

Quantité en 1990 q' 0 

Quantité en 2012 q' t 1 

Pétrole 

24,5 

94,13 

1895 

1687 

Gaz naturel 

1,64 

2,76 

29,3 

42,5 

Charbon 

43,48 

92,5 

19,7 

11,4 


Source : British Petroleum (BP) Statistical Review of World Energy (juin 2013). Les prix sont exprimés en dollars 
par baril pour le pétrole, en dollars par millions d'unités thermales pour le gaz et en dollars par tonne pour le 
charbon. Les consommations sont exprimées en milliers de barils par jour pour le pétrole, en milliards de mètres 
cubiques pour le gaz et en millions de tonnes équivalent pétrole pour le charbon. 


4 À tilre d'exemple, les indices de prix à la consommation, de la production industrielle, de chiffre d’af¬ 
faires, ou encore de prix à la production - pour n'en citer que quelques uns - calculés par T INSEE sont des 
indices de Laspeyres. 
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À partir des données figurant dans le tableau 3.2, on peut calculer les indices élémen- 

p l 

taires des prix I ‘ r/0 = —j en les exprimant base 1 en 1990. On constate ainsi au regard 

Po 

du tableau 3.3 qu’entre 1990 et 2012, les prix du pétrole ont augmenté de 284,2 %, 
ceux du gaz naturel de 68,3 % et ceux du charbon de 112,7 %. Le calcul des indices 
synthétiques nous donne les résultats suivants : 


■ Pour les indices de Laspeyres : 



iy - 

' kU ) Mé 

l80279 ' 4 L 3,8088 

47332,11 

(3.35) 

et 

, g ( _ Z>PW, _ 
1/0 1 ZiPWo 

4I8% ' 87 = 0,8852 

47332,11 

(3.36) 

■ Pour les indices de Paasche : 




y (p) = = 

rloip) ZiPtâ 

l5 " 69 ’" =3.8,82 

41896,87 

(3.37) 

et 

P* <„) == 

rloiq) ÏPWo 

l5 " 69 ' U =0,8873 

180279,47 

(3.38) 

■ Pour les indices de Fisher : 




F >) = J l UpKo(pï = 

V3,8088 x 3,8182 = 3,8135 

(3.39) 

et 





= 

V0,8852x 0,8873 = 0,8863 

(3.40) 


Ces calculs montrent ainsi que les prix du bouquet énergétique considéré ont aug¬ 
menté de 280,9 % selon l’indice de Laspeyres et de 281,8 % selon l’indice de Paasche, 
la hausse se situant entre ces deux valeurs selon l’indice de Fisher avec une augmen¬ 
tation des prix de 281,4 %. S’agissant des volumes, on relève une baisse de la quantité 
consommée entre 1990 et 2012 de 11,5 % selon l’indice de Laspeyres, 11,3 % selon 
l’indice de Paasche et 11,4 % selon l’indice de Fisher. Les calculs des coefficients 
de pondération nous montrent en outre que la part des dépenses énergétiques consa¬ 
crée à la consommation de pétrole est la plus élevée parmi les trois types d’énergie 
considérées, cette part s’élevant à 98,09 % en 1990 et 99,27 % en 2012. 


TD 

O 

C 

ZJ 

•c 

O 

« 

c 

Z 

c 

▼ Tableau 3.3 

synthétiques 

Pétrole, gaz naturel et charbon : calcul des indices élémentaires et 

û 

LO 

c 

O 

|||fl Énergie /' 

/ / 

't/0 

Po9o 

Mo 

«0 

Po9t 

Mt 


rH 

O 

fM 

U 

3 

g 

Pétrole 

3,8420 

46427,50 

178376,35 

0,9809 

41331,50 

158797,31 

0,9927 

© 

O. 

g 

g 

Gaz naturel 

1,6829 

48,05 

80,87 

0,0010 

69,70 

117,30 

0,0007 

4-* 

-C 

CTi 

>* 

3 

e2 

Charbon 

2,1274 

856,56 

1822,25 

0,0181 

495,67 

1054,50 

0,0066 

•d 

c 

Somme 


47332,11 

180279,47 

1 

41896,87 

159969,11 

1 

Cl 

O 

U 

Q 
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2.5.1 


Propriétés des indices de Laspeyres, 
Paasche et Fisher 
1 Circularité 


Les indices de Laspeyres, Paasche et Fisher ne vérifient pas la propriété de circularité, 
ce qui constitue évidemment un inconvénient notable et implique qu’un changement 
de base nécessite de réeffectuer les différents calculs voulus : 


t9 ± t9 x j‘J 
i/o T * 'v/o 

(3.41) 

-J- p9 y p9 

r tl o T r i/r x r r/o 

(3.42) 

J7 C I -t p9 y 17 9 

1 i/o 1 t/r x 1 ri o 

(3.43) 


Démonstration 

Effectuons, à titre d’exemple, la démonstration dans le cas de l’indice des prix de Laspeyres. 


On a : 


et : 


L r/o (P) 


ZiPWo x 


ZipWü 


Zip'X e >pWq 
ZiPWs 


V,Ap) 


(3.44) 


(3.45) 


On en déduit donc que LÎ,,(p) t 
circularité. 


L r/M 


ZiPX' 

, mettant en avant le non respect de la propriété de 


2.5.2 


Réversibilité 


Les indices de Laspeyres et de Paasche ne sont pas réversibles : 


l?+ — 

'/ 0 * T‘l 
u 0/l 

(3.46) 

F# ± JL 

I/O * p9 
r 0/t 

(3.47) 

En revanche, on a les relations suivantes entre ces deux indices : 


iy - _L 

I/o p9 

0/r 

(3.48) 

O 

II 

1 _ 

(3.49) 

L’indice de Fisher est quant à lui réversible : 


F 9 = — 

I/O p‘J 

(3.50) 


2.5.3 1 Agrégation 

Supposons que l’on étudie les dépenses des ménages et que l’on agrège ces dé¬ 
penses par groupes : logement, consommation de viande, consommation de légumes. 
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consommation de produits laitiers, etc. On calcule, pour chacun de ces groupes, les 
indices de Laspeyres et de Paasche. L'indice global de l’ensemble des dépenses des 
ménages peut alors être obtenu à partir de ces indices calculés par groupes : l’indice 
global de Laspeyres (respectivement de Paasche) est en effet égal à la moyenne pon¬ 
dérée des indices de Laspeyres (respectivement de Paasche) calculés sur les différents 
groupes. Les indices de Laspeyres et de Paasche vérifient ainsi la propriété d’agré¬ 
gation. L’indice de Fisher n’ayant pas une structure de moyenne arithmétique, il ne 
vérifie pas cette propriété. 


2.5.4 Reconstitution de l'indice de valeur 


Rappelons que l’indice de valeur est donné par 


rV _ ,pq 

! 0 - Vo " 


z-M 


ZiPl/l'o 

ce que l’on peut encore décomposer comme suit : 


,v _ ^1PW1 ,, ^‘Pr% _ -iPWt w ^-iPi/lt 

'l/O x x 


ZiP'M) ÏpWo Z ‘PWi I ‘PWo 

D’où les relations suivantes : 


4 = KM x LUp) ~ fUp) x ÜUq) 


On en déduit que : 


soit encore 


•i/o 




'//o 


= V L '/ ° {p) x pl > ] x V L "o (f/) x pt 'p (q) 


d’où : 


C = Ko (P) x FM 


(3.51) 


(3.52) 


(3.53) 

(3.54) 

(3.55) 

(3.56) 

L’indice de valeur est ainsi égal au produit des indices de prix et de volume de Fisher. 
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Raccords d'indices et indices 
chaînes 


3.1 


Raccords d'indices 


Les grandeurs économiques telles que le PIB, la dépense de consommation des mé¬ 
nages, etc., sont calculées selon divers critères et nomenclatures, comme le Système 
des comptes nationaux ou le Système européen de comptes, régis au niveau inter¬ 
national afin de rendre plus aisées les comparaisons entre pays. Or, ces systèmes et 
nomenclatures évoluent au cours du temps afin de s’adapter aux modifications de l’en¬ 
vironnement et du fonctionnement économique. Des changements de base des indices 
peuvent alors être opérés afin de tenir compte de ces modifications en intégrant les 
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nouveaux éléments inclus régulièrement dans les nomenclatures. Il est ainsi fréquent 
lorsque l’on étudie l’évolution d’une grandeur économique sur une longue période 
d’avoir à gérer de tels changements de base dans les indices. 


Choix de la période de base d'un indice 


Le choix de la période de base ou de référence 
d’un indice (période 0) revêt une importance par¬ 
ticulière dans la mesure où l’évolution de l’indice 
dépend de ce choix. En pratique, il convient d’évi¬ 
ter de retenir une période atypique, c’est-à-dire ca¬ 
ractérisée par des fluctuations exceptionnelles (ac¬ 
cidentelles ou saisonnières) donnant par exemple 
un poids inhabituel à un certain indice élémen¬ 
taire, afin de ne pas fausser l’évolution de l’indice 
synthétique. 

À cette fin, on s’efforce de choisir une date « nor¬ 
male » comme date de référence - c’est-à-dire dé¬ 
nuée d’événements exceptionnels - où l’on retient 
non pas une date particulière, mais une période de 
base composée de plusieurs dates. On peut ainsi 
choisir comme période de base une moyenne sur 
plusieurs années (pour un indice annuel) ou plu¬ 
sieurs mois (pour un indice mensuel) afin de lisser 
les effets d’éventuelles évolutions atypiques. 

Un exemple caractéristique est celui des produits 
agricoles : les prix et quantités de ceux-ci étant for¬ 
tement influencés par les conditions climatiques, il 
est d’usage de retenir comme base non pas une ré¬ 
colte correspondant à une date donnée, mais une 
moyenne sur plusieurs récoltes afin d’atténuer les 


effets d’événements climatiques ou conjoncturels 
exceptionnels. 

Comme nous l’avons précédemment souligné, des 
changements de base sont en outre régulièrement 
opérés afin de prendre en compte les évolutions 
de l’environnement économique. Ainsi, plus on 
s’éloigne de la période de base, plus celle-ci de¬ 
vient obsolète à des fins de comparaison tempo¬ 
relle au sens où la structure du phénomène étu¬ 
dié (structure de la consommation, de la produc¬ 
tion, des échanges, etc.) s’est modifiée au cours 
du temps. Il convient alors d’actualiser la base (ce 
qui correspond à une actualisation des pondéra¬ 
tions dans le cas d’un indice de Laspeyres), via 
un changement de base, en procédant à des rac¬ 
cords d’indices. Cette opération permet ainsi de 
tenir compte non seulement des modifications de 
la structure de la grandeur étudiée, mais également 
d’inclure de nouveaux produits, de supprimer des 
produits devenus obsolètes, de prendre en compte 
une nouvelle nomenclature, etc. Pour ces diverses 
raisons, les instituts de statistique tels que l’IN¬ 
SEE procèdent régulièrement à des changements 
de base des indices. À titre d’exemple, l’indice de 
la production industrielle calculé par l’INSEE su¬ 
bit un changement de base tous les cinq ans. 


Considérons un indice I 9 , base 1 à la date 0, calculé pour la grandeur g jusqu’à la date 
d, date à laquelle il est remplacé par un indice J 9 base 1 à la date / . Afin d’étudier 
l’évolution de la grandeur g sur l’ensemble de la période allant des dates 0 à t (avec 
t > d), il convient de procéder à un raccord d’indices, c’est-à-dire de déterminer la 
valeur qu’aurait pris l’indice I 9 à la date t. Notons I' 9 l’indice ainsi raccordé, on a : 


l ' 9 = J 9 

1 i/o J l/f 


1 9 

‘k /0 

J 9 

J k/f 


(3.57) 


5 Le raisonnement est strictement identique si l'on considère les indices en hase 100 à la place de la 
base 1. 
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J 9 

1 UQ 

avec f < k < d. Le rapport —est appelé coefficient de raccordement et correspond 

J k/f 

au coefficient par lequel on doit multiplier le nouvel indice afin d’en déduire la valeur 
prise par le précédent indice s’il avait continué à être calculé. Le choix de la date k 
est laissé au statisticien, mais l’on retient fréquemment la dernière date pour laquelle 
l’ancien indice est disponible. 

Afin d’illustrer l’opération de raccord d’indices, considérons l’indice des prix de pro¬ 
duction des services de télécommunications français aux entreprises françaises. Cet 
indice, base 1 au premier trimestre 2007, est calculé par l’INSEE jusqu’au troisième 
trimestre 2012. À cette date, il s’élève à 0,833. À compter du quatrième trimestre 
2012, il est remplacé par l’INSEE par un nouvel indice, base 1 en 2010 qui vaut 0,979 
au troisième trimestre 2012 et s’élève à 0,918 au troisième trimestre de l’année 2013. 
Afin de calculer la valeur qu’aurait pris l’ancien indice au troisième trimestre de l’an¬ 
née 2013, on calcule le coefficient de raccordement : 


jtelecom 
f 2012.3/2007 

jtelecom 
J 2012.3/2010 


0,833 

0,979 


= 0,8509 


(3.58) 


La valeur qu’aurait pris l’ancien indice au troisième trimestre de l’année 2013 s’il 
avait continué à être calculé est alors donnée par : 


^ 2013 ^ 3/2007 = ^20133/2010 X 0,8509 = 0,918 x 0,8509 = 0,781 (3.59) 

Bien entendu, le résultat obtenu peut varier en fonction de la date k que l’on choi¬ 
sit pour procéder au raccordement. Il est important de souligner que l’opération de 
raccord d’indices ne conduit donc pas à un résultat certain au sens où (i) la composi¬ 
tion des indices que l’on raccorde a en général évolué au cours du temps et (ii) d’un 
point de vue théorique, la propriété de circularité n’est pas vérifiée pour les indices 
synthétiques. 


3.2 


Indices chaînes 


Ainsi que nous l’avons mentionné précédemment, les mutations économiques ont pour 
conséquence que des indices dont la base reste fixe sur longue période ne peuvent tenir 
compte de ces changements et ne sont en conséquence pas représentatifs de la réalité 
économique. Afin de pallier cette difficulté, il est possible de calculer des indices dont 
la base varie de date en date (ou de période en période). Cela consiste à généraliser le 
principe de raccord d’indices en définissant des indices chaînes. 


Définition 3.6 

L'indice chaîne 

de référence 0 s’écrit : 


L'indice chaîne C 9 0 calculé pour une grandeur g à la date t par rapport à la date 


soit encore : 


C 9 — ï> x C 9 
'-'//o - l t/t -1 '-'/-i/o 


C 9 - l 9 x j 9 xx I 9 

S/0 1 r/t-\ x Vl/r-2 * •" x rt/0 


(3.60) 

(3.61) 


Il est alors possible de définir un indice chaîne de Laspeyres (en remplaçant I 9 par L 9 
dans l’équation (3.61)), un indice chaîne de Paasche (en remplaçant I 9 par P 9 dans 
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l’équation (3.61)) et un indice chaîne de Fisher (en remplaçant I 9 par F 9 dans l’équa¬ 
tion (3.61)). Rappelons toutefois qu’il convient de prendre garde à l’interprétation au 
sens où un indice chaîne de Laspeyres ne constitue pas un indice de Laspeyres, le pro¬ 
duit d’indices de Laspeyres ne donnant pas un indice de Laspeyres. Il en est de même 
pour les indices de Paasche et de Fisher. 


El Hétérogénéité et effet qualité 

Dans les calculs d’indices que nous avons effectués jusqu’à présent, nous avons sup¬ 
posé implicitement que les biens ou produits considérés sont homogènes au sein d’une 
même classe. Ainsi, si l’on reprend l’exemple des fraises (► tableau 3.1), nous avons 
considéré que la classe des fraises était homogène. Or, en pratique, tel n’est évidem¬ 
ment pas le cas, cette classe est en effet hétérogène puisqu’il existe plus de 600 variétés 
de fraises (« Gariguette », « Charlotte », « Mara des bois », etc.). Ces variétés corres¬ 
pondent à différents niveaux de qualité, certaines variétés de fraises bénéficiant d’un 
signe d’identification de la qualité et de l’origine, comme le « label rouge », l’« Indica¬ 
tion Géographique Protégée», etc. La prise en compte de l'hétérogénéité, et donc de 
la qualité, des produits n’est pas neutre quant au calcul et à l’interprétation des indices. 
Afin d’illustrer ceci, considérons l’exemple de la production de vin en France. Ré- 
partissons cette classe en deux catégories i : les vins de consommation courante (dits 
« vins de France ») et les vins de qualité supérieure, cette dernière catégorie com¬ 
prenant notamment les vins d’appellation d’origine protégée (AOP). Le tableau 3.4 
reporte pour les années 2005 et 2013 et pour chacune des deux catégories considé¬ 
rées : le prix de vente d’un litre de vin (en euros par litre), la quantité produite (en 
millions de litres), ainsi que la valeur de la production définie comme le produit entre 
les prix et les quantités. 


T Tableau 3.4 Prix de vente (en euros par litre) et quantités produites (en millions de 
litres) de vin 


Variété /’ 



Vin de qualité supérieure 

Somme 

Prix moyen 


2 

575 

1 150 

2,5 

415 

1 037,5 

830 

1 437,5 

3,5 

210 

735 

3,8 

348 

1 322,4 

1 218 

798 

2,40 

785 

1 885 

3,09 

763 

2 359,9 

2 048 

2 235,5 


On peut calculer les indices suivants pour le vin (g désignant le vin) : 
■ L’indice élémentaire du prix moyen du vin : 


j9 - El - 12? 


V» = T- = 


Po 2,40 


= 1,288 


avec po 


ZiPWo , - ZiPW, 

et p, - 






(3.62) 
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L’indice élémentaire de volume du vin 


‘>^ 1 -1 = 0 ' 972 


avec <70 = 2,^ et q< - Zrf,. 
L’indice de valeur du vin : 


' /0 V 0 

avec V„ = Zip l Q cf Q et V, = Z,p\q' r 


|V.K.^, |i252 


1885 


(3.63) 


(3.64) 


Le calcul de ces indices nous montre que la valeur de la production de vin s’est accrue 
de 25,2 %, se décomposant en une diminution de la production de 2,8 % et une hausse 
du prix moyen de 28,8 %. Les calculs des indices de prix et de volume nécessitant 
toutefois d’agréger les prix et quantités de deux types de vin, il convient de calculer 
des indices synthétiques. Le tableau 3.5 reporte les valeurs des indices de Laspeyres 
et de Paasche calculées à partir des données figurant dans le tableau 3.4. On constate 
ainsi que la hausse du prix moyen du vin entre les deux années considérées se situe 
entre 15,2 % et 18,6 % selon l’indice retenu. 


▼ Tableau 3.5 Indices de Laspeyres et de Paasche 


Laspeyres Paasche 

Prix (p) 

1,186 1,152 

Quantité ( q) 

1,086 1,056 


X! 

O 

c 

ri 

û 


o 

CM 

© 


en 


> 

CL 

O 

U 


Si l’on recalcule la valeur de la production sur la base des indices de prix de Laspeyres 
et de Paasche, on obtient une hausse de la valeur entre 12 % (selon l’indice de Paasche) 
et 15,3 % (selon l’indice de Laspeyres), ce qui est bien différent de l’augmentation de 
25,2 % précédemment mise en évidence. Comment expliquer une telle différence? 
Cela provient d’une modification de la structure des ventes qui a évolué en faveur des 
vins de qualité supérieure. On peut en effet constater au regard du tableau 3.4 que la 
part dans la production totale du vin de qualité supérieure s’est accrue entre 2005 et 
2013, passant de 26,8 % à 45,6 %. Cet accroissement de la qualité peut se quantifier à 
l’aide des indices de qualité (ou indices de structure). 

Nous savons que : 


et que : 


x *îotë> = *5o 0» x *&»<*> 


ZipW, 

fV _ Yl = Iipi ' q ‘< _ : Ml x L,q '< 

"° Vo Eip^c /' 2)<7' Zip^ 


lïoW x IïoiP) 


(3.65) 


(3.66) 


En égalisant les deux équations précédentes, il vient : 

= C<«> x L *>w = O» x *•«<«> = ',>> x ',>> o- 67 > 
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On en déduit donc les deux relations suivantes : 

' L ïoW *(«) 
' f%(p) 


(3.68) 


(3.69) 


En détaillant les différentes formules, on peut réécrire les indices S, et S ' comme suit : 


M 

ZipWo 

Mo 

Mçtf, 

M 

ïPqQq 

Mo 


(3.70) 


(3.71) 


On constate ainsi aisément que les indices S, et S', décrivent les modifications appa¬ 
rues dans la composition de la grandeur (ou de la classe) étudiée entre la date de base 
et la date courante ; la différence entre les deux indices étant que le système des prix 
considéré est celui de la date courante pour S, et de la date de base pour S\. Les in¬ 
dices 5, et S' t sont appelés indices de qualité (ou indices de structure) et sont donc- 
égaux à : 


1,288 1,056 

1,186 “ 0,972 
1,288 _ 1,086 
1,152 ~ 0,972 


1,086 

1,118 


(3.72) 

(3.73) 


En combinant les équations (3.67), (3.70) et (3.71), on obtient les égalités suivantes : 


i; 0 = L Up } xS ' x Jjofa) = ^f/oCP) xS r x ^o(«) (3-74) 


Soit, avec nos données : 

/J, = 1,186 x 1,086x0,972 = 1,152 x 1,118x0,972 = 1,252 (3.75) 

Cette dernière égalité nous permet ainsi de déduire que l’augmentation de 25,2 % de 
la valeur de la production de vin se décompose en : 

- une hausse du prix moyen comprise entre 15,2 % (selon l’indice de Paasche) et 
18,6 % (selon l’indice de Laspeyres) ; 

- un accroissement de la qualité du vin comprise entre 8,6 % et 11,8 %, due à l’effet 
de structure, c’est-à-dire à la modification de la structure des ventes en faveur des 
vins de plus grande qualité ; 

- une baisse de la quantité vendue de 2,8 %. 


78 
















Chapitre 3 


Indices 


X! 

O 

c 

ri 

û 


o 

rM 

© 


en 


> 

CL 

O 

U 


2 questions à 

Axelle 

Chauvet-Peyrard 

Chef de division à l'INSEE 
et précédemment responsable 
de la méthodologie de l'indice 
des prix à la consommation au sein 
de la direction des statistiques 
démographiques et sociales 
de l'INSEE 



Comment l'indice des prix à la consommation mis à 
disposition par l'INSEE est-il calculé en pratique ? 

L'indice des prix à la consommation (IPC) est un indicateur 
synthétique dont l'objectif est d'estimer la pression 
inflationniste à travers la mesure de l'évolution des prix des 
biens et services sur tout le territoire français. Le 
recensement complet de tous les produits offerts aux 
consommateurs étant matériellement impossible, cette 
mesure s'effectue par le biais d'un échantillonnage. Un 
« panier-type » de biens et services est ainsi défini et révisé 
chaque année de manière à être représentatif de la 
consommation réelle des ménages, telle qu'observée sur le 
territoire dans un passé récent. Parallèlement, on effectue un 
échantillonnage des points de vente au sein desquels seront 
observés tous les mois les prix des produits retenus dans le 
panier-type. Ces observations de prix sont ensuite agrégées 
sous forme d'indice. La formule retenue pour l’IPC comme 
pour l'IPCH (indice des prix à la consommation « harmonisé » 
au niveau européen) est, conformément à la réglementation 
européenne, celle de Laspeyres (voir équation (3.22)). 

Quels problèmes peut poser un tel indice agrégé ? 
Comme tout produit d'une agrégation, l'IPC reflète des 
réalités et des situations très diverses. Étant un indicateur 
d'inflation, il couvre l'intégralité du champ de la 
consommation des ménages, y compris des biens durables 
tels que les ordinateurs ou des services plus ou moins 
fréquemment consommés. Il y a souvent une 
mécompréhension de l'IPC, le grand public étant davantage 
attentif à ce qu'on appelle parfois le « prix du caddie ». De 
plus, pour être une mesure efficace de la pression 
inflationniste, il est nécessaire que la mesure d'évolution des 
prix se fasse à qualité constante. De cette façon, si le prix 
étiqueté d'un produit reste stable mais que sa qualité 
s'améliore, l'indice élémentaire du produit diminuera de fait. 
C'est ce qui se passe par exemple sur les ordinateurs. Et c'est 
également ce qui donne un IPC relativement stable depuis 
des années autour de 1,5 à 2 % d'inflation annuelle, alors 
que les ménages « vivent » une hausse des prix étiquetés 
jugée bien supérieure. 

L'intégralité de l'entretien est disponible sur 

www.dunod.com. ■ 
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Les points clés 

Un indice élémentaire est un nombre sans dimension permettant de résumer l’évo¬ 
lution d'une grandeur économique simple entre deux dates ou deux espaces diffé¬ 
rents à une même date, ou de comparer l’évolution de deux grandeurs simples. 


Les indices élémentaires vérifient les propriétés de circularité et de réversibilité. 


Un indice synthétique permet de résumer en une seule valeur l’information conte¬ 
nue dans plusieurs indices élémentaires. 


Les principaux indices synthétiques sont les indices de prix et de quantités de 
Laspeyres et de Paasche. Ces indices ne vérifient pas les propriétés de circularité 
et de réversibilité. 


L’indice des prix de Laspeyres décrit l’évolution du prix d’un panier de biens dont 
la composition est restée fixe entre les deux dates considérées. 


L’indice des prix de Paasche décrit l’évolution du prix d’un panier de biens dont 
la composition évolue en même temps que les prix. 


Le calcul d’indices de qualité permet de décomposer l’évolution de la valeur d’une 
grandeur en une partie due à la variation des prix, une partie due à la variation des 
quantités et une partie provenant de la modification de la structure de la grandeur 
étudiée due à l’effet qualité. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Propriétés sur les indices 

a. Un indice élémentaire vérifie toujours les propriétés 
de circularité et de réversibilité. 

b. Un indice vérifiant la propriété de circularité est tel 
que : x /* /0 = 

c. Contrairement à l’indice de Paasche, l’indice de Las- 
peyres est réversible et satisfaisait la propriété de cir¬ 
cularité. 

d. L’indice de Fisher est réversible et ne satisfait pas la 
propriété d’agrégation. 

e. L'indice de valeur est égal au produit des indices de 
prix et de quantités de Fisher. 

Indices synthétiques 


peut-on dire de l’évolution du prix du journal entre 2005 

et 2013? 

a. Le prix a augmenté de 86,7 %. 

b. Le prix a augmenté de 13,3 %. 

c. Le prix a baissé de 13,3 %. 

d. Le prix a augmenté de 20 %. 

e. Le prix a baissé de 20 %. 

On donne l’indice élémentaire des prix suivant : 

-^ 2013/2005 = 1,283. Que peut-on en déduire en termes 

d’évolution des prix entre 2005 et 2013 ? 

a. Le prix du produit considéré a augmenté de 128,3 % 
entre 2005 et 2013. 

b. Le prix du produit considéré a augmenté de 12,83 % 
entre 2005 et 2013. 

c. Le prix du produit considéré a augmenté de 28,3 % 
entre 2005 et 2013. 

d. Le prix du produit considéré a baissé de 71,7 % entre 
2005 et 2013. 

e. Le prix du produit considéré a augmenté de 71,7 % 
entre 2005 et 2013. 


a. L’indice des prix de Paasche est la moyenne arith¬ 
métique des indices élémentaires, pondérée par les 
coefficients de la date de référence. 

b. L’indice des prix de Paasche est la moyenne arith¬ 
métique des indices élémentaires, pondérée par les 
coefficients de la date courante. 

c. Le calcul des indices des prix de Laspeyres et de 
Paasche ne nécessite pas que les indices élémentaires 
sur lesquels ils sont fondés soient basés à la même 
date. 

d. Dans le cas de l’indice des prix de Paasche, la struc¬ 
ture du panier de biens évolue avec les prix. 

e. Dans le cas de l’indice des prix de Laspeyres, la 
structure du panier de biens est fixe. 

On considère l’évolution du prix d’un quotidien de 
la presse écrite. On donne les indices élémentaires des 
prix suivants : / 2013/2000 = 1,30 et / 2005/2000 = 1,50. Que 


Le rapport suivant 


Z:PW, 


pW, x ~ 

P, 


correspond à la dé¬ 


finition de : 

a. L’indice des prix de Fisher. 

b. L’indice des prix de Laspeyres. 

c. L’indice des prix de Paasche. 

d. L’indice des quantités de Laspeyres. 

e. L’indice des quantités de Paasche. 


Exercice 


Indices élémentaires, synthétiques et effet qualité 

Considérons un ménage consommant trois variétés de 
pommes : Golden, Pink Lady et Royal Gala. Le ta¬ 
bleau 3.6 fournit, pour chacune de ces variétés, le prix 
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d’un kilogramme (en euros) ainsi que la quantité an¬ 
nuelle consommée (en kilogrammes). 


▼ Tableau 3.6 Consommation de pommes d'un mé¬ 
nage 


Variété 

Prix 

en 2010 

Quantité 
en 2010 

Prix 

en 2013 

Quantité 
en 2013 

/ 

Po 

Po 

P't 

Pt 

Golden 

2,80 

10 

3,10 

15 

Pink Lady 

3,90 

5 

4,40 

15 

Royal Gala 

2,10 

15 

2,20 

10 


1. Calculer le prix moyen du kilogramme de pommes 
ainsi que l’indice élémentaire du prix moyen. 

2. Calculer l’indice élémentaire des quantités. 

3. Calculer les indices de prix de Laspeyres et de 
Paasche de deux façons différentes. 

4. Calculer les indices des quantités de Laspeyres et de 
Paasche. 

5. Calculer les indices de prix et quantités de Fisher. La 
relation usuelle entre les indices synthétiques est-elle 
vérifiée ? 

6 . Peut-on conclure à une modification de la structure 
de consommation du ménage? Ce résultat était-il 
attendu ? 


Sujets d'examen 

Université Paris Ouest, extrait 

Un institut national de la statistique d’un pays X sou¬ 
haite déterminer l’indice des prix de quatre groupes de 
biens A, B, C et D. Les enquêteurs fournissent les résul¬ 
tats donnés dans le tableau 3.7. 


T Tableau 3.7 Prix et quantités des biens A, B, C 
et D 


Bien 

h 

Prix 

unitaire 
en 2000 

Po 

Prix 

unitaire 
en 2014 

Pt 

Quantités 
consommées 
en 2000 

Po 

A 

169 

610 

210 

B 

81 

265 

220 

C 

1023 

2470 

30 

D 

32 

64 

470 


L’institut a par ailleurs calculé que la consommation 
entre 2000 et 2014 a diminué de 23,8 % pour le groupe 
de biens A , augmenté de 4,54 % pour le groupe de 
biens B, diminué de 40 % pour le groupe de biens C 
et stagné pour le groupe de biens D. 

1. Calculer les quantités consommées pour chacun des 
groupes de biens en 2014 (notées q *). 

2. Calculer les indices élémentaires des prix pour 
chaque groupe de biens, base 1 en 2000, notés i'L. 
Commenter. 

3. Calculer l’indice des prix de Laspeyres (noté L^ /0 (p)), 
l’indice des prix de Paasche (noté Pj' /(l ( p)) et l’indice 
des prix de Fisher (noté F'^ip)). Tous ces indices 
sont calculés base 1 en 2000. Comparer les trois va¬ 
leurs et commenter les résultats obtenus. 

Université Paris Ouest, extrait 

Une petite entreprise artisanale distribue trois types de 
produits (h = a, b, c). Le tableau 3.8 donne les prix ( p ' 0 ) 
et quantités ( q, jj) vendues en 2010, ainsi que les indices 
élémentaires des prix {i h t Ap)) et des quantités (A 0 (q)) en 
2014 (base 100 en 2010). 

▼ Tableau 3.8 Prix, quantités et indices élémen¬ 
taires - Biens a.b.c 


h 

Po 

P h o 

't/o (P> 

't/ofa) 

a 

4 

5 

200 

45 

b 

8 

5 

75 

100 

c 

10 

4 

120 

125 


1. Caractériser l’évolution des prix des trois produits 
sur la période considérée. 

2. Déterminer les prix et les quantités des trois types de 
produits vendus en 2014. 

3. Comparer les structures des chiffres d’affaires en 
2010 et en 2014 selon les trois types de produits. 

4. Calculer le nombre total de produits vendus en 2010 
et en 2014, que l’on notera respectivement qo et q,. 
En déduire l’indice élémentaire de la quantité totale 
de produits vendus (base 1 en 2010), noté I,/o(q). 
Commenter. 

5. Sachant que l’indice de valeur l' /{) est égal à 1,080 et 
en utilisant la valeur de I,/o(q) déterminée ci-dessus, 
calculer l’indice élémentaire du prix moyen des pro¬ 
duits considérés. On donne par ailleurs le rapport sui- 

Li/oiq) 

vant : —-= 1,133. Commenter et interpréter ces 

Itioiq) 

résultats. 
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Chapitre 3 Indices 


POU R A L L .ER JP.LUj _ L OjN 

Indice des prix à la consommation et effet qualité 


Nous avons ici traité de l’effet qualité lié à des variétés 
de biens différentes au sein d’une même classe. Notons 
que l’effet qualité apparaît également lors des mises à 
jour du panier de biens servant au calcul d’indices syn¬ 
thétiques, tel l’indice des prix à la consommation de 
l’INSEE. Les produits considérés dans le calcul de l’in¬ 
dice font l’objet de mises à jour régulières et il est donc 
possible que certains biens obsolètes disparaissent et 
soient éventuellement remplacés par des biens de qua¬ 
lité supérieure. Afin d’éviter que l’évolution du prix pro¬ 
vienne d’une différence qualitative entre le bien rem¬ 
placé et le bien remplaçant, l’INSEE élimine l’effet qua¬ 
lité en procédant à ce que l’on appelle un « ajustement 
de qualité ». 

L’étude réalisée par Guédès (2004) montre que l’impact 
de ces ajustements de qualité n’est pas négligeable dans 
le calcul de l’indice des prix à la consommation. Ainsi, 
sur un nombre total de 450000 produits, 14000 ont été 
remplacés et deux tiers de ceux-ci ont fait l’objet d’un 
ajustement de qualité. Sur l’année 2003, Guédès (2004) 
met en évidence que ces ajustements ont réduit l’évolu¬ 


tion de l’indice de 0,3 point de pourcentage : en l’ab¬ 
sence de ces ajustements, l’indice des prix aurait aug¬ 
menté de 2,5 % au lieu de 2,2 % sur l’année considérée. 
A un niveau plus fin d’analyse, l’impact des ajustements 
de qualité est différent selon les secteurs : il est plus fort 
pour les secteurs dans lesquels les produits sont rapide¬ 
ment renouvelés, tel le secteur de l’habillement, et plus 
faible dans le cas des produits alimentaires. Faut-il tou¬ 
jours cependant corriger de l’effet qualité ? Contraire¬ 
ment à ce que laisse penser l’exemple de l’indice des 
prix à la consommation, la réponse à cette question est 
négative. En effet, un même bien peut avoir plusieurs 
prix différents. Tel est par exemple le cas d’un bien agri¬ 
cole qui peut être soumis à des quotas différents sur cer¬ 
tains segments et non soumis à quota sur un autre seg¬ 
ment. Dans ce cas, il n’y a pas lieu de procéder à un 
ajustement de qualité et le prix à considérer est le prix 
moyen. Pour plus de détails sur le traitement des effets 
qualité, le lecteur intéressé pourra se reporter aux do¬ 
cuments figurant sur le site de l’INSEE, dont Guédès 
(2004) et Berthier (2005). 
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Chapitre 



I l est bien connu que les ventes de climati¬ 
seurs sont systématiquement plus élevées en 
été : l’étude de leur évolution au cours d’une 
année montre ainsi une hausse des ventes à l’ap¬ 
proche de l’été, suivie d’une baisse à l’issue du mois 
d’août. 

Supposons à présent que l’on cherche à analy¬ 
ser l’évolution des ventes non plus au cours d’une 


seule année, mais sur une période de temps plus 
longue, composée de plusieurs années consécutives, 
par exemple de 1980 à 2014. Sur l’ensemble des 
35 années, les ventes ont-elles tendance à stagner, 
augmenter ou diminuer? Les hausses et les baisses 
sont-elles régulières, c’est-à-dire ont-elles tendance 
à se répéter d’année en année? Existe-t-il des fluc¬ 
tuations exceptionnelles ? 



LES GRANDS 

AUTEURS 


Warren M. Persons (1878-1937) 

Warren M. Persons est un économiste statisticien. Professeur au Colorado College 
et remarqué pour ses travaux sur les baromètres économiques, il dirige le Committee 
on Economie Research crée en 1917 par l'Université de Harvard et édite le premier 
numéro de la célèbre Review of Economie Statistics en 1919. 

Également connu pour ses travaux sur les indices, il a très largement contribué à 
l'analyse des séries temporelles en proposant une méthode complète de décompo¬ 
sition d’une série en quatre éléments : une composante tendancielle de long terme 
(séculaire), un mouvement cyclique, un mouvement saisonnier infra-annuel et des 
variations résiduelles ou accidentelles. Cette classification, dont les prémisses remon¬ 
taient au début du xx e siècle, constitue depuis le schéma de décomposition de 
référence d'une série temporelle. ■ 
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Séries 

temporelles : 
une introduction 


Plan 

D Exemples introductifs, définitions et description des séries temporelles 86 


H Détermination et estimation de la tendance . 91 

El Désaisonnalisation : la correction des variations saisonnières . 96 


Pré-requis 

Savoir calculer les caractéristiques d'une distribution (;> chapitre 1). 

Savoir lire et interpréter un graphique dans le plan. 

Connaître l'ajustement par la droite des moindres carrés (*- chapitre 2). 

Objectifs 

Analyser, décrire et expliquer l'évolution d'un phénomène au cours 
du temps. 

-*• Repérer et identifier la tendance, les variations saisonnières et les variations 
accidentelles dans l'évolution d'une variable au cours du temps. 

Prévoir le phénomène étudié à partir de son évolution passée. 

Lisser une série afin de faire ressortir son évolution générale. 
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Partie 1 Statistique descriptive 


S upposons par ailleurs qu’une grande enseigne vendant des climatiseurs ait mis 
en oeuvre une politique promotionnelle en juillet 2013. L’accroissement des 
ventes observé en juillet 2013 résulte-t-il de cette politique promotionnelle ou 
de la chaleur caractérisant la période? En d’autres termes, la hausse des ventes en 
juillet 2013 est-elle plus importante que l’augmentation observée en juillet les années 
précédentes en l’absence de politique promotionnelle? Comment déterminer la partie 
de la hausse résultant de l’élévation des températures et celle due à la promotion? 
Pour répondre à l’ensemble de ces questions, il convient d’étudier l’évolution de la 
série des ventes de climatiseurs au cours du temps, ce que l’on appelle une série 
temporelle. Pour cela, il faut isoler les éléments constitutifs de l’évolution globale 
de la série temporelle, c’est-à-dire ses différentes composantes : sa tendance de long 
terme, ses variations saisonnières, ses variations accidentelles. L’objet de ce chapitre 
est ainsi de présenter les différents outils permettant de réaliser une telle analyse. 


D Exemples introductifs, 
définitions et description 
des séries temporelles 


1.1 


Quelques exemples 


Considérons les figures suivantes reportant l’évolution de l’indice des prix à la 
consommation en France (► figure 4.1 ), du nombre de passagers sur les vols interna¬ 
tionaux (► Aéroports de Paris, figure 4.2) et de l’indice boursier CAC 40 (► figure 4.3). 
Ces données constituent ce que l’on appelle des séries temporelles (ou séries chro¬ 
nologiques ou chroniques) au sens où une observation (c’est-à-dire une valeur) est 
observée à différentes dates espacées de façon régulière. Ainsi, la figure 4.2 reporte le 
nombre de passagers (en ordonnée) observé chaque mois entre janvier 1990 et janvier 
2014 (en abscisse). De façon générale, on retient la définition suivante. 

DéfinjtiojqAI 

Une série temporelle Y, est une suite d’observations Y\, Yi .Lr ordonnées dans 

le temps, où 1 désigne le temps (/ = 1,...,T) et T est le nombre d’observations. 


Le temps peut être une date ou une période, ce qui nous conduit à distinguer deux 
grands types de séries temporelles : série en niveau (ou stock) et série de flux. Un 
stock correspond ainsi à la valeur d’une variable à une date donnée, un flux se rapporte 
à l’évolution (augmentation ou diminution) de la variable entre deux dates. Dans le cas 
le plus fréquent, la durée entre deux dates (ou périodes de temps) successives d’ob¬ 
servation des données est constante et correspond à ce que l’on appelle la fréquence. 
La fréquence peut être annuelle (► figure 4.1), trimestrielle, mensuelle (► figure 4.2), 
hebdomadaire, quotidienne (► figure 4.3), intra-quotidienne, etc. 
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EIKJIS 


La correction des jours ouvrés 


Supposons que l’on souhaite comparer deux va¬ 
leurs mensuelles d’une série temporelle. Les mois 
pouvant avoir des durées différentes (nombre 
de jours, de week-end, de jours fériés, etc.), 
il convient de tenir compte de ces différences 
lorsque l’on raisonne en termes de (lux. Dans ce 
cas, on détermine les séries corrigées des jours 
ouvrés (CJO). Prenons un exemple simple afin 
d’illustrer le problème. Considérons les exporta¬ 
tions totales de biens, en millions d’euros, de la 
zone euro à 12 pays. Les données sont les sui¬ 
vantes (source : INSEE) : 

■ En décembre 2006, les exportations en vo¬ 
lume s’élèvent à 124 164,9 millions d’euros. Le 
nombre de jours ouvrés (c’est-à-dire travaillés) 
est égal à 20. 


■ En janvier 2007, les exportations en volume 
s’élèvent à 121815,4 millions d’euros. Le 
nombre de jours ouvrés est égal à 22. 

Si l’on calcule la variation relative (c’est-à-dire le 
taux de croissance) du volume des exportations 
entre janvier 2007 et décembre 2006 sans tenir 
compte de la différence de durée entre les deux 
mois, on obtient : 

121 815,4- 124164,9 


121815,4 


= -0,0189 


et l’on en déduit que les exportations ont légère¬ 
ment diminué de 1,89 % d’un mois à l’autre. Un 
tel résultat est cependant faussé par le nombre dif¬ 
férent de jours ouvrés entre les deux mois. Si l’on 
se fixe comme norme une durée de 21 jours ou¬ 
vrés pour tous les mois de l’année, on peut calculer 
les exportations corrigées des jours ouvrés comme 
suit : 


■ En décembre 2006 : 

124 164 9 

-—X21 = 130 373,145millionsd’euros. 

20 

■ En janvier 2007 : 

121815,4 

-—-x21 = 116 278,336 millions d’euros. 


En calculant la variation relative entre janvier 
2007 et décembre 2006, on constate que les ex¬ 
portations ont en fait diminué de façon plus im¬ 
portante, puisque la baisse s’élève à 10,81 %. De 
façon générale, on exprime la valeur CJO, 7, c 
du flux Y, au mois t comme suit : 


/CJO 


/CJO _ 


Y, 

JO 


NJ 


x D 


Ref 


(4.1) 


où Nf° désigne le nombre de jours ouvrés du 
mois t et £>/?<,/ la durée moyenne de référence des 
mois à comparer. 
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Source : INSEE 


Nombre 
de passagers 



Source : INSEE 


CAC40 



Source : Datastream 


A Figure 4.1 Évolution de l'in- ▲ Figure 4.2 Évolution du nombre de a Figure 4.3 Évolution de l'in¬ 
dice des prix à la consommation passagers sur les vols internationaux dice boursier CAC 40, don- 
en France, données annuelles, (Aéroports de Paris), données men- nées quotidiennes, 20/05/1994- 
1990-2013 (base 100 en 1998) suelles, janvier 1990-janvier 2014 20/05/2014 
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Partie 1 Statistique descriptive 


1.2 


Description : les composantes d # une série 
temporelle 


L’observation des figures 4.1 à 4.3 nous permet de faire ressortir un certain nombre 
de traits saillants. Au regard de la figure 4.1, il apparait que l’indice des prix à la 
consommation a tendance à augmenter au cours du temps. Il en est de même du trafic 
aérien (► figure 4.2), mais avec une particularité supplémentaire, à savoir la présence 
de fluctuations régulières, d’amplitude comparable, se répétant chaque année de fa¬ 
çon périodique durant les mois de juillet et août. La figure 4.3 met quant à elle en 
évidence l’existence de fluctuations assez irrégulières, aléatoires de l’indice CAC 40. 
Les séries temporelles peuvent ainsi être décomposées en plusieurs éléments, appelés 
composantes (► figure 4.4) : 


Voyageurs-km 



fM (N (N CM (N 


Source : INSEE 

▲ Figure 4.4 Trafic ferroviaire sur les trains à grande vitesse (TGV) sur la période 
janvier 1995-décembre 2005, données mensuelles 


■ La tendance (ou trend ou composante tendancielle ou composante séculaire), notée 
d,, représente l’évolution à long terme de la série étudiée et reflète son comporte¬ 
ment « normal », régulier. La figure 4.1 fait ainsi ressortir une tendance (linéaire) 
haussière de l’indice des prix à la consommation. 

■ Le cycle (ou composante cyclique) correspond à un mouvement décrivant des fluc¬ 
tuations autour de la tendance. En pratique, il est usuel en statistique de ne pas 
distinguer les composantes cyclique et tendancielle et de confondre l’évolution du 
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Chapitre 4 Séries temporelles : une introduction 


cycle avec celle de la tendance 1 . On considère donc dans la suite que la tendance 
regroupe à la fois la tendance et le cycle. 

■ La composante saisonnière (ou saisonnalité), notée s t , traduit un phénomène se ré¬ 
pétant à intervalles de temps réguliers (périodiques). Ce mouvement saisonnier est 
souvent considéré comme prévisible, tel est par exemple le cas des pics de trafic aé¬ 
rien observés tous les étés (► figure 4.2) correspondant aux départs en vacances. Les 
variations saisonnières se traduisent ainsi par des pics et des creux qui se répètent 
et reflètent les comportements (vacances, traditions, religions, etc.), les rythmes des 
saisons (tourisme, transport, consommation d’énergie, produits agricoles tels les 
fruits et légumes, etc.), ou encore d’autres facteurs économiques ou sociaux (soldes, 
etc.). 

■ La composante résiduelle (ou résidu ou aléa ou bruit), notée e,, correspond à des 
fluctuations irrégulières et aléatoires, comme cela est observé sur la figure 4.3. On 
intègre également dans cette composante les « phénomènes accidentels » comme 
des conditions météorologiques ou phénomènes climatiques exceptionnels (gel, sé¬ 
cheresse, inondations...), les grèves, les guerres, etc. 

L’identification de ces différentes composantes constitue une étape cruciale afin de 
pouvoir décrire, expliquer et prévoir le phénomène étudié. À cette fin, on utilise des 
schémas de décomposition. 


1.3 


Décomposition d'une série temporelle 


1.3.1 I Les deux schémas classiques de décomposition 


On distingue traditionnellement le schéma de décomposition additif et le schéma de 
décomposition multiplicatif : 

■ Selon le schéma de décomposition additif, la série Y, s’écrit comme la somme des 
trois composantes, supposées indépendantes les unes des autres : 

Y, =d, + s, + e, (4.2) 

■ Selon le schéma de décomposition multiplicatif, la série Y, s’écrit comme suit : 

Y, = d,{\ + s,)(l + e,) (4.3) 

Dans le schéma de décomposition additif, en supposant que la composante résiduelle 
est faible, la différence entre la série et la tendance est sensiblement égale à la com¬ 
posante saisonnière. Tel n’est plus le cas pour le schéma multiplicatif puisque la dif¬ 
férence entre la série et la tendance devient proportionnelle à la tendance. En d’autres 
termes, pour le schéma additif, l’amplitude de la composante saisonnière est constante 
au cours du temps (la saisonnalité est dite stable ou rigide), contrairement au cas du 
schéma multiplicatif dans lequel cette amplitude varie proportionnellement à la ten¬ 
dance au bruit près (la saisonnalité est dite évolutive). On peut en conséquence s’aider 
de graphiques pour effectuer le choix entre les deux types de schémas, ainsi que cela 
est représenté sur les figures 4.5 et 4.6. 

1 L'une des raisons est liée au fait que les séries temporelles sont souvent trop courtes pour pouvoir 
procéder aisément à une telle décomposition. 

2 Notons qu'il est possible de définir plusieurs types de schémas multiplicatifs - comme par exemple 
Y, = d t ( 1 + s,) + e, - celui retenu ici (équation (4.31) est le plus utilisé en économie. 
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A Figure 4.5 Schéma additif A Figure 4.6 Schéma multiplicatif 


Remarque : Supposons, à titre d’exemple, que l’on dispose de données trimestrielles. 
Une autre technique visant à choisir entre les deux schémas de décomposition consiste 
à calculer pour chaque année la moyenne et l’écart-type des 4 observations de l’année. 
On reporte alors graphiquement (ou dans un tableau, dit tableau de Buys-Ballot) 
les valeurs de la moyenne (en abscisse) en fonction des valeurs de l’écart-type (en 
ordonnée). S’il ressort graphiquement une absence de lien entre la moyenne et l’écart- 
type (droite parallèle à l’axe des abscisses), il convient de retenir un schéma additif. 
Si tel n’est pas le cas, on choisit un modèle multiplicatif. 


FOCUS 

La composante saisonnière 


Dans le cas de la composante saisonnière, l’éten¬ 
due des intervalles auxquels se répète le phéno¬ 
mène étudié est constante et appelée période de 
la saisonnalité (notée P). 

À titre d’exemple, dans le cas d’une série men¬ 
suelle (respectivement trimestrielle) pour laquelle 
une saisonnalité est systématiquement observée le 
même mois (respectivement trimestre) chaque an¬ 
née, onaf= 12 (respectivement P = 4). 

La constance généralement supposée de la com¬ 
posante saisonnière sur chaque période P , soit 
si = s, + p = s, + 2 p = implique que l’effet de 
la composante saisonnière est en moyenne nul sur 
la période P : Zj =l Sj = 0. 


Cette contrainte provient du principe de conser¬ 
vation des aires selon lequel l’influence des varia¬ 
tions saisonnières est neutre sur la période P : les 
variations saisonnières se compensent sur la pé¬ 
riode P au sens où la somme des aires entre la série 
et la tendance situées au dessus de la tendance est 
égale à celle située en dessous de la tendance. Les 
valeurs Sj, j = 1 ,...,P, prises par s, sont appelées 
coefficients saisonniers. 

Ainsi, si l’on considère le nombre d’entrées quo¬ 
tidiennes au cinéma les valeurs ,V| = -0,5 et 
= 0,8 signifient que la fréquentation des salles 
de cinéma diminue de 50 % le lundi et augmente 
de 80 % le samedi par rapport à l’ensemble de la 
semaine. 
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Chapitre 4 Séries temporelles : une introduction 


1.3.2 


Synthèse : démarche générale pour l'analyse 
d'une série temporelle à partir 
de ses composantes 


Afin de décrire l’évolution d’une série temporelle, il est nécessaire d’étudier ses diffé¬ 
rentes composantes. Pour cela, on procède en quatre étapes : 

■ Étape 1 : on choisit le schéma - additif ou multiplicatif - de décomposition en 
s’aidant, comme nous l’avons vu précédemment, de graphiques. On étudie ensuite 
séparément la tendance (étape 2) et la composante saisonnière (étape 3). 

■ Étape 2 : détermination de la tendance. Cette étape consiste à isoler la tendance afin 
d’étudier l’évolution de long terme de la série. 

■ Étape 3 : correction des variations saisonnières et/ou des jours ouvrés. Cette étape 
consiste à corriger la tendance des variations saisonnières dans le cas d’une série en 
niveau, et des variations saisonnières et des jours ouvrés dans le cas d’une série en 
flux. Considérons par exemple les ventes mensuelles de jouets au sein d’un grand 
magasin et supposons que ce dernier a mis en place une politique promotionnelle 
au mois de décembre 2013. L’étude de la série corrigée des variations saisonnières 
(CVS) permettra ainsi de déterminer si le pic observé en décembre 2013 est plus im¬ 
portant que les pics observés en décembre les autres années et résulte de l’effet de 
la politique promotionnelle mise en place. De façon plus générale, afin de pouvoir 
comparer les ventes d’un mois sur l’autre, il est nécessaire de tenir compte de l’ef¬ 
fet de la saisonnalité en supprimant la composante saisonnière, tel est précisément 
l’objet de la correction des variations saisonnières. 

■ Étape 4 : une fois l’estimation de la tendance et la détermination de la série CVS 
effectuées, il est possible en ôtant les valeurs de la tendance à celles de la série CVS 
de faire apparaître les seules variations de la série dues à la composante résiduelle. 



Détermination et estimation 
de la tendance 


Afin de simplifier la présentation, considérons le cas de séries temporelles pour les¬ 
quelles il est possible de faire abstraction de la composante saisonnière et composées, 
en conséquence, uniquement d’une tendance et d’une composante résiduelle. Notre 
objectif est ici d’identifier, et donc d’extraire, la tendance d’une telle série afin de pro¬ 
céder ensuite à son estimation. A cette fin, on cherche à lisser la série temporelle pour 
n’en conserver que sa tendance. Pour cela, on utilise des techniques de lissage comme 
les moyennes mobiles et les méthodes de lissage exponentiel. 


2.1 


Les moyennes mobiles 


Afin de comprendre intuitivement la technique des moyennes mobiles, considérons le 
cas d’une série temporelle dont la tendance d, est linéaire , soit d, = at + b. On a donc 


3 Nous ne considérons dans cei ouvrage que le cas de tendances linéaires. Il existe bien entendu d’autres 
types de tendances, plus complexes, comme les tendances polynomiales de degré supérieur à 1, exponen¬ 
tielles, logistiques, hyperboliques, etc. 
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Statistique descriptive 


F, = at+b+e,. L’objectif est ici d’estimer la tendance, c’est-à-dire d’obtenir des valeurs 
à et b (dites valeurs estimées) pour les « vrais » coefficients a (pente) et b (ordonnée à 
l’origine). Ainsi que nous l’avons vu dans l’analyse de régression (► chapitre 2), l’ap¬ 
plication de la méthode des moindres carrés ordinaires (MCO) nous fournit de telles 

estimations et nous donne pour l’estimateur du coefficient de pente : à = —— - ’ — . 

V(t) 


En procédant de la sorte, on suppose que l’estimation de la tendance est la même sur 
l’ensemble de la période et l’on tient compte de l’ensemble des observations (7) anté¬ 
rieures et postérieures à la date courante t, en leur attribuant le même poids (1/7). Or, 
il peut être préférable d’attribuer un poids différent aux observations - en accordant, 
par exemple, un poids plus faible aux observations plus lointaines - ou de ne retenir 
qu’une partie des observations. La méthode des moyennes mobiles consiste ainsi à 
retenir en t un nombre fixé N d’observations les plus récentes et à négliger les obser¬ 
vations les plus anciennes. À chaque date t, l’échantillon d’observations N se modifie 
donc, conduisant à une série d’estimations de la tendance. 


Plus précisément, le principe des moyennes mobiles consiste à remplacer N obser¬ 
vations consécutives par leur moyenne arithmétique, en « faisant glisser » ce calcul 
de date en date. N est un nombre entier, appelé ordre (ou longueur) de la moyenne 
mobile. 


FOCIJS 

Choix de Tordre d'une moyenne mobile 


Le choix de l’ordre N de la moyenne mobile 
dépend de l’ampleur des fluctuations de la sé¬ 
rie F,. Si l’amplitude des fluctuations est restreinte, 
une faible valeur de N suffit à lisser la série. 
En revanche, si cette amplitude est importante, il 
convient de retenir une valeur élevée de N pour 
lisser la série. Il est ainsi possible de s’aider de 
graphiques pour effectuer ce choix. En pratique, 
on a coutume de retenir les valeurs suivantes : 

- Pour des données annuelles : TV = 3 ou N = 5. 

- Pour des données trimestrielles : N = 4. 

- Pour des données mensuelles : N = 12. 
Rappelons que nous avons supposé dans cette sec¬ 
tion l’absence de composante saisonnière. Si la sé¬ 


rie étudiée comporte une composante saisonnière 
et que l’on souhaite distinguer la tendance de cette 
composante, il convient d’appliquer à cette série 
une moyenne mobile dont l’ordre est égal à la pé¬ 
riode P de la saisonnalité ou est un multiple de P 
(à titre d’exemple, pour des données mensuelles, 
P - 12). Dans ce cas, les variations saisonnières 
sont éliminées. 

Cela résulte du principe de conservation des aires 
appliqué à la composante saisonnière : sur une pé¬ 
riode donnée, la partie positive et la partie néga¬ 
tive de cette composante se compensent, condui¬ 
sant à une valeur nulle à l’issue de l’application de 
la moyenne mobile. 


4 On parle également parfois de taille de la fenêtre de la moyenne mobile. 
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Exemple 

Prenons le cas d’une série Y,, pour t = 1,2.7, et déterminons sa moyenne mobile M, 

d’ordre 3. Les résultats figurent dans le tableau 4. 1. Notons que pour t = 1 et t - 7 la moyenne 
mobile d’ordre 3 ne peut être calculée et l’on perd ainsi une valeur à chaque extrémité de 
la série. La moyenne mobile M , calculée dans la troisième colonne du tableau 4.1 est une 
moyenne mobile centrée : le nombre d’observations pris en compte avant la date à laquelle 
est calculée la moyenne mobile est égal au nombre d’observations pris en compte après cette 
même date. 11 existe également des moyennes mobiles dites simples ou non centrées (notées 
MS,) que l’on peut calculer comme indiqué dans la dernière colonne du tableau 4.1. La 
moyenne mobile simple d’ordre N = 3 ne peut pas être calculée pour t = 1 et t = 2 car 
t < N. En pratique, les moyennes mobiles simples ne sont adaptées qu’au cas de tendances 
constantes, soit cl, = b , et ne peuvent être utilisées en cas de tendances plus « complexes » 
(linéaires, quadratiques, exponentielles,...). 


▼ Tableau 4.1 Principe de calcul d'une moyenne mobile d'ordre 3 


t 

Yt 

M t 

MS t 

1 

Vi 



2 

Y2 

M 2 = (Y, +Y 2 + Y 3 )/ 3 


3 

V's 

M 3 = {Y 2 + y 3 + y 4 )/3 

MS 3 = (Y,+Y 2 + Y 3 )/ 3 

4 

Yq 

M a = (Y 3 + Y a + Y s )/ 3 

MS a = (Y 2 + Y 3 + V 4 )/3 

5 

Ys 

Ms = (Y a + Ys + Y 6 )/3 

MS s = (Y 3 + Y a + Y s )/ 3 

6 

y 6 

M e = (Y s + Ys + Yy)/ 3 

MSs = (Y 4 + Y s + Ys)/ 3 

7 

Yy 


MSy = (Ys + Ye + Yy)l 3 


On distingue les moyennes mobiles d’ordre impair des moyennes mobiles d’ordre 
pair : 


■ Cas où N est impair : N = 2k + 1 (avec k = 1,2,...). 


On appelle opérateur de lissage par moyennes mobiles d’ordre impair 

N = 2k + l, l’opérateur M défini pour t = k + - k qui transforme la 

série Y, en une série M, telle que : 


M, = 


Yi-k + Yt-k+\ + + b + + Yt+k -1 + y<+k 

2 k+ 1 


(4.4) 


■ Cas où N est pair : N = 2k (avec k = 1,2,...). 


On appelle opérateur de lissage par moyennes mobiles d’ordre pair N = 2k, 

l’opérateur M défini pour t = k + 1 - k qui transforme la série Y, en une 

série M, telle que : 

~Yt-k + Y,-k + \ + ... + Y, + ... + Y,+k -1 + -Y,+k 
M, = ------ (4.5) 
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Notons que dans les deux cas, lorsque l’on calcule une moyenne mobile, on perd k 
valeurs à chaque extrémité de la série F, : la série M, comprend donc moins d’obser¬ 
vations que la série Y,. 

L’estimation de la tendance d, par moyennes mobiles est alors immédiate puisque 
cela consiste à choisir M, comme estimateur, soit d, = M,. On constate ainsi que 
l’estimateur de la tendance n’est plus constant (comme dans le cas des MCO) mais 
varie avec t. La différence u, = d, - d, désigne l’erreur de prévision de la tendance 
commise en t. L’amplitude de l’erreur diminue avec la valeur de N, c’est pour cela que 
l’on parle de lissage de la série Y,. 

On déduit des développements précédents que la prévision Ÿj+h faite en T de la sé¬ 
rie Y pour la date T+h où h désigne l’horizon de prévision (h = 1,2,...) est donnée par : 

Ÿj+h = dj+h = â(T + h) + b = aT + b + àh = dj + àh (4.6) 

Naturellement, si la tendance est constante d, = b, on a plus simplement : 

Ÿr+h = dj = Mj. 


2.2 


Le lissage exponentiel simple 


Le lissage exponentiel simple (LES) est une technique s’appliquant au cas de séries 
pour lesquelles la tendance est constante au cours du temps, soit : d, - h et donc 
Y, = b - 1 - e, . Le principe du LES consiste à estimer en t la tendance d’une série en 
considérant l’ensemble des observations antérieures à t ( \ mais en accordant un poids 
de plus en plus faible aux observations de plus en plus lointaines et, en conséquence, 
en donnant plus d’importance aux observations récentes. 


QL4ünitianJa4 

On appelle opérateur de lissage exponentiel simple (LES) de paramètre a la fonc¬ 
tion L qui transforme la série temporelle Y, en une série L, telle que : 

L r = aY, + (\ - a)L,^ (4.7) 

où 0 < a < 1 est appelé paramètre (ou constante) de lissage et t = 


En procédant par récurrence, on peut réécrire l’équation (4.7) comme suit : 

L, = aY, + (1 - 0 ')(o , K,_i + (1 - a)L,- 2 ) = aY, + or(l - o , )E,_i + (1 - a) 2 L ,- 2 (4.8) 

En poursuivant ainsi de suite, on obtient la formule développée du LES exprimant la 
série lissée comme une combinaison linéaire de l’ensemble des valeurs de la série Y, : 

L,=aY, + a( 1 -a)F,_i +a(l - a) 2 F,_ 2 + ... + a( 1 - a)'" 1 F, +(1 - a)'Lo (4.9) 

où Lo désigne la condition initiale du LES. Cette dernière expression illustre bien le 
fait que le poids des observations passées diminue au fur et à mesure que l’on s’éloigne 
dans le temps. En particulier, le poids (1 - a)' associé à U) diminue rapidement vers 0 

5 Dans les méthodes de lissage exponentiel, on suppose que e, est d'espérance nulle, de variance constante 
et non autocorrélé. On dit alors que e, est un bruit blanc. 

6 Les techniques de lissage exponentiel (simple et double) se distinguent ainsi des méthodes de moyennes 
mobiles par le fait qu'elles tiennent compte de toutes les observations antérieures, et pas seulement des N 
dernières observations. 
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lorsque t augmente, traduisant le fait que la condition initiale joue très rapidement un 
rôle négligeable dans le calcul de L,. Notons qu’en pratique, on retient fréquemment 
comme valeur initiale soit la moyenne de la série Y,, soit la première observation Y\. 
On en déduit immédiatement l’estimation de la tendance, qui s’exprime comme une 
moyenne arithmétique pondérée de l’observation de la série en t (Y,) et de la tendance 
estimée en t - 1 (d,-\) : 

d, = L, = aY, + (1 - à)d t -\ (4.10) 

avec do = U)- 

On peut encore écrire cette équation comme suit : 

d, = d,-] + a{Y, - d,-\) = d,-\ + au, (4.11) 

où u, désigne l’erreur de prévision réalisée en t : 

u, = Y, - d t -\ = Y, - L,-\ (4.12) 

L’estimation de la tendance en t apparaît donc comme la correction de l’estimation 
réalisée en t - 1 d’une fraction a de Teneur de prévision en t. 

La prévision de la série réalisée à la date T pour la date T + h, où h désigne l’horizon 
de prévision, est naturellement donnée par la dernière estimation de la tendance : 

Ÿr+h = dj — Lj (4.13) 


FOCUS 

Choix de la valeur du paramètre de lissage a 


Les pondérations associées aux valeurs de Y, dimi¬ 
nuent de façon exponentielle au cours du temps : 
plus le paramètre de lissage a est élevé, plus la dé¬ 
croissance est rapide. Ainsi, plus a est proche de 0 
(respectivement de 1), plus on tient compte des 
observations lointaines (respectivement récentes). 
En conséquence, une valeur élevée pour a permet 
une adaptation plus rapide à un changement de ni¬ 
veau de la série. 


En pratique, il est possible de s’aider de gra¬ 
phiques : si la série semble peu « heurtée », une 
faible valeur de a (inférieure ou égale à 0,3) peut 
être suffisante pour lisser la série. 

Outre cette méthode graphique, on peut aussi re¬ 
courir à des critères statistiques : le paramètre a du 
LES est ainsi souvent choisit de sorte à minimiser 
la somme des carrés des erreurs de prévision 27, uj. 


2.3 


Le lissage exponentiel double 


Dans le cas où la tendance n’est plus constante au cours du temps, il convient de ne 
plus utiliser le LES et d’avoir recours au lissage exponentiel double (LED). Consi¬ 
dérons ainsi une tendance linéaire d, = at + b. Le LED consiste à appliquer le LES à 
la série lissée L,, où L, - aY, + (1 - a)L,-\. 


POUR ALLER PLUS LOIN 

► Voir p. 105 


7 Notons que dans le cas du LES où la tendance est constante au cours du temps, la prévision effectuée à 
la date T est une valeur constante, indépendante de l’horizon h, on a donc : Ÿy+i, = Yr- 

8 Ainsi que nous le démontrons dans l'encadré « Pour aller plus loin ». il existe en effet un biais systéma¬ 
tique entre la valeur observée et la valeur lissée lorsque l'on utilise le LES pour estimer la tendance dans le 
cas où cette dernière n'est pas constante au cours du temps. 
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On appelle opérateur de lissage exponentiel double (LED) de paramètre a la fonc¬ 
tion LL qui transforme la série temporelle L, en une série LL, telle que : 

LL, = aL, + ( 1 - a)LL,-i (4.14) 

où 0 < a < 1 et t = I 


LOI 1 tLA-ULfc r Jn l U loin En procédant par récurrence, on montre que l’estimation de la tendance par le biais du 
► Voir p. 105 LED est donnée par les équations suivantes : 

d, = 2L, - LL, (4.15) 

l’estimation à, de la pente à la date t s’écrivant : 

à, = ——— (L, - LL,) (4.16) 

1 - a 

La prévision de la série réalisée à la date T pour la date T + h, où h désigne l’horizon 
de prévision, est alors donnée par : 

Yj^-h — üj(T + h) + b — dj + üjh — 2,Lp — LLj + h - (Lp — LLp) (4.17) 

1 - a 



Désaisonnalisation : la correction 
des variations saisonnières 


Ainsi que nous l’avons précédemment mentionné, l’estimation de la tendance d’une 
série ne doit pas être perturbée par la présence de variations saisonnières, ces dernières 
masquant en partie la tendance générale de la série. Si la série étudiée présente une 
composante saisonnière, il convient donc de la purger de ses variations saisonnières 
en calculant une nouvelle série appelée série corrigée des variations saisonnières 
(CVS) ou série désaisonnalisée. 


3.1 


Principe général 


Les variations saisonnières constituent des écarts à la tendance dans le cas d’un 
schéma de décomposition additif et des rapports à la tendance pour un schéma multi¬ 
plicatif. 

■ Cas du schéma de décomposition additif : Y, = d, + s, + e,. Supposons que l’on 
dispose d’une estimation s, de la composante saisonnière s,. La série corrigée des 
variations saisonnières, notée Yf vs , est donnée par : 

Yf vs =Y l -s l (4.18) 

■ Cas du schéma de décomposition multiplicatif : Y, = d,( 1 + s,)( 1 + e,) = d,S,( 1 + 6,), 
avec S, = 1 + s,. Supposons que l’on dispose d’une estimation S, de la composante 
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saisonnière S,. La série corrigée des variations saisonnières, notée Y ( t vs 
par : 


yf V5 


n 

s, 


est donnée 


(4.19) 


3.2 


Calcul pas à pas d'une série CVS 


Afin d’illustrer le calcul d’une série CVS, considérons la série de transport des voya¬ 
geurs sur le réseau ferré de la RATP (source : INSEE). La série, dont les premières 
et dernières valeurs sont reportées dans le tableau 4.2, est à fréquence trimestrielle et 
couvre la période allant du troisième trimestre de Tannée 1996 au dernier trimestre 
2013. Comme on peut le constater sur la figure 4.7, cette série présente une saisonna¬ 
lité puisque l’on observe de façon systématique une baisse au troisième trimestre de 
chaque année, pouvant s’expliquer par le fait que le réseau RATP est moins emprunté 
durant la période des vacances d’été. S’agissant du choix du schéma de décomposition 
(additif ou multiplicatif), l’observation de l’amplitude de la composante saisonnière 
nous conduit plutôt à opter pour un schéma additif. A des fins pédagogiques, nous 
considérons toutefois les deux schémas par la suite. 


Individus-km 

A 



H—i—i—i—i—i—i—i—i—i-1—i—i—i—i—i—► t 

p-cocno<-rNm<d-Lnkor-*.cocno<-rsjm 

ososaïoooooooooot-t— <-<- 
cTicncrioooooooooooooo 

-"r-T-NfMNfMblfMrMNNfMfMNNN 

Source : INSEE 

A Figure 4.7 Évolution du transport de voyageurs sur le réseau ferré RATP du 3 e tri¬ 
mestre 1996 au 4 e trimestre 2013 (en individus-kilomètres) 
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3.2.1 1 Étape 1 : estimation de la tendance 

Commençons par estimer la tendance cl, de la série de trafic RATP Y,. La série étant 
trimestrielle, nous considérons une moyenne mobile d’ordre 4. Le tableau 4.2 reporte 
les valeurs de la série ainsi lissée, d,. La figure 4.7 montre que la série exhibe une 
tendance à la hausse sur l’ensemble de la période et que les variations saisonnières ont 
bien été éliminées par l’application d’une moyenne mobile dont l’ordre est égal à la 
période de la saisonnalité (N = P = 4). 

T Tableau 4.2 Transport de voyageurs sur le réseau ferré RATP (en individus- 


kilomètres) 

Date 

Y t 

d t 

z ü 

Additif 

z 9 

Multiplicatif 

1996/3 

1,912 




1996/4 

2,377 




1997/1 

2,316 

2,226 

0,090 

1,041 

1997/2 

2,275 

2,239 

0,036 

1,016 

1997/3 

1,958 

2,254 

-0,296 

0,869 

1997/4 

2,437 

2,268 

0,169 

1,075 

1998/1 

2,378 

2,283 

0,095 

1,042 

1998/2 

2,323 

2,310 

0,013 

1,006 

2012/1 

3,316 

3,173 

0,143 

1,045 

2012/2 

3,218 

3,191 

0,027 

1,009 

2012/3 

2,856 

3,194 

-0,338 

0,894 

2012/4 

3,414 

3,190 

0,224 

1,070 

2013/1 

3,259 

3,186 

0,073 

1,023 

2013/2 

3,243 

3,171 

0,072 

1,023 

2013/3 

2,801 




2013/4 

3,345 





Source : INSEE. 


3.2.2 1 Étape 2 : estimation et interprétation 
des coefficients saisonniers 

Notons Yjj l’observation du f trimestre de l’année i, avec i = 1,...,/ et j = 1,2,3,4 
où / désigne le nombre total d’années considérées dans l’échantillon. On peut donc 
écrire les schémas de décomposition comme suit : 

■ Schéma de décomposition additif : Y,j = d,j + Sj + e iy 

9 Le mouvement saisonnier se répétant à l'identique d'année en année, il ne dépend pas de t, expliquant 
le fait que s soit uniquement indicé par j. 
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■ Schéma de décomposition multiplicatif : Yij = d,j( 1 + sj)( 1 + e, ; ) = dijS j( 1 + e (/ ), 
avec S j = 1 + Sj 

On calcule les écarts (schéma additif) et les rapports (schéma multiplicatif) à la ten¬ 
dance estimée comme suit : 

■ Pour le schéma additif : Zij = K// - dij 

Y a 

■ Pour le schéma multiplicatif : Zij = — 

dij 

Les coefficients ainsi calculés sont reportés dans le tableau 4.2 pour les deux sché¬ 
mas. On estime ensuite les coefficients saisonniers Sj en effectuant la moyenne des 
valeurs Zij pour chacun des trimestres sur l'ensemble des années considérées, soit : 

(4.20) 

Les résultats obtenus, pour les deux schémas de décomposition sont reportés dans le 
tableau 4.3. Rappelons que l’on doit avoir = 0, soit 5 = 0 pour le schéma 

additif et j = 4, soit S = I pour le schéma multiplicatif, s et S représentant 
la moyenne sur les quatre trimestres de Sj et S , respectivement. Si ces contraintes ne 
sont pas vérifiées, il convient de corriger les coefficients saisonniers en calculant les 
coefficients normalisés s'- = Sj - s et S '■ = S ; - S . Nous avons ici : 


0,118 + 0,036-0,327 + 0,175 

= 0,0005 

(4.21) 

4 

- 1.043+1.012 + 0.883+1.063 


= 1,0001 

(4.22) 


On constate que ces valeurs sont très proches des valeurs attendues, bien que différant 
très légèrement de 0 et 1. La dernière ligne du tableau donne en conséquence les 
valeurs normalisées des coefficients saisonniers. 

Si l’on considère le schéma additif, un coefficient négatif témoigne d’une valeur de 
la série inférieure à la tendance, alors qu’un coefficient positif illustre une valeur de 
la série supérieure à la tendance. Ainsi, la valeur estimée du coefficient saisonnier au 
troisième trimestre est égale à 53 = — 0,328, ce qui signifie qu’au troisième trimestre 
le trafic sur le réseau est systématiquement inferieur à la tendance (de 0,33 individus- 
kilomètres environ). Au contraire, au dernier trimestre, ,v 4 = 0,174, illustrant le fait 
que le trafic est supérieur à la tendance. On peut donc s’attendre chaque année à une 
hausse du nombre de voyageurs sur le réseau RATP entre le troisième et le dernier 
trimestre. 

De façon similaire, les calculs pour le schéma multiplicatif nous montrent que le coef¬ 
ficient saisonnier S 3 est inférieur à 1 (£3 = 0,882) : tous les ans, au troisième trimestre 
le trafic RATP est inférieur à la tendance de 11,8 % environ. En revanche, au dernier 
trimestre, le nombre de voyageurs transportés par la RATP est supérieur à la tendance, 
d’environ 6,3 %. Là encore, la RATP peut donc prévoir, tous les ans, une augmentation 
du nombre de voyageurs entre le troisième et le dernier trimestre. 

10 Notons qu’il est également possible de remplacer la moyenne par la médiane des valeurs zij afin d’évi¬ 
ter l’effet des valeurs extrêmes. 
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T Tableau 4.3 Calcul des coefficients saisonniers 


Date 

Trim. 1 

Schéma additif 

Trim. 2 Trim. 3 

Trim. 4 

1 Trim. 1 

Schéma multiplicatif 

Trim. 2 Trim. 3 

Trim. 4 

1997 

0,090 

0,036 

-0,296 

0,169 

1,041 

1,016 

0,869 

1,075 

1998 

0,095 

0,013 

-0,322 

0,213 

1,042 

1,006 

0,863 

1,090 

1999 

0,140 

-0,026 

-0,303 

0,169 

1,059 

0,989 

0,875 

1,069 

2000 

0,114 

0,004 

-0,306 

0,242 

1,046 

1,002 

0,880 

1,094 

2001 

0,095 

-0,006 

-0,311 

0,135 

1,037 

0,998 

0,880 

1,051 

2002 

0,158 

0,019 

-0,304 

0,236 

1,059 

1,007 

0,889 

1,088 

2003 

0,167 

-0,158 

-0,336 

0,236 

1,063 

0,940 

0,874 

1,086 

2004 

0,134 

0,046 

-0,354 

0,240 

1,048 

1,016 

0,876 

1,083 

2005 

0,029 

0,123 

-0,365 

0,163 

1,010 

1,042 

0,875 

1,056 

2006 

0,136 

0,042 

-0,412 

0,258 

1,046 

1,014 

0,862 

1,086 

2007 

0,116 

0,077 

-0,214 

-0,148 

1,038 

1,026 

0,927 

0,950 

2008 

0,198 

0,124 

-0,339 

0,223 

1,067 

1,041 

0,890 

1,073 

2009 

0,054 

0,063 

-0,313 

0,122 

1,017 

1,021 

0,897 

1,040 

2010 

0,108 

0,105 

-0,357 

0,149 

1,035 

1,034 

0,885 

1,048 

2011 

0,110 

0,094 

-0,364 

0,166 

1,035 

1,030 

0,885 

1,052 

2012 

0,143 

0,027 

-0,338 

0,224 

1,045 

1,009 

0,894 

1,070 

Moyenne 

0,118 

0,036 

-0,327 

0,175 

1,043 

1,012 

0,883 

1,063 

Coef. normalisés 

0,117 

0,036 

-0,328 

0,174 

1,043 

1,012 

0,882 

1,063 


Note : « Moyenne » est la moyenne des coefficients Sj pour le schéma additif et des coefficients Sj pour le schéma multiplicatif. 


3.2.3 1 Étape 3 : calcul de la série CVS 

Disposant à présent d’une estimation de la tendance (étape I) et de la saisonnalité 
(étape 2), on en déduit directement la série CVS : 

■ Pour le schéma additif : Yfj vs = Yij - Sj soit Yf vs = Y, - s,. 

Y , y 

■ Pour le schéma multiplicatif : Y^ vs = -r~ soit F, CVi = 

S j S i 

Les séries CVS ainsi obtenues selon les deux schémas sont reportées sur la figure 4.8. 
On constate que la série a été lissée de sa composante saisonnière : YÇ VS représente 
la façon dont aurait évolué Y, en l’absence de phénomène saisonnier. On relève en 
particulier l’existence de deux évolutions particulièrement marquées au deuxième tri¬ 
mestre 2003 et au dernier trimestre 2007 correspondant à d’importants épisodes de 
grèves (variations accidentelles). En pratique, on poursuit la procédure en procédant 
à un nouveau lissage sur la série CVS afin d’estimer sa tendance (étape 4). Cette der¬ 
nière servira alors de base à la prévision des valeurs désaisonnalisées de la série. Doté 
de cette nouvelle estimation de la tendance, on peut effectuer une nouvelle estima¬ 
tion de la saisonnalité (étape 5) dans le but de chercher à améliorer l’estimation de la 
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composante saisonnière. Ces deux étapes 4 et 5 peuvent être réitérées. Une fois la ten¬ 
dance et la composante saisonnière estimées, il est possible d’effectuer des prévisions 
de la série. Ainsi, en notant h l’horizon de prévision (h > 1) et en considérant à titre 
d’exemple le schéma additif, on a : 

Ÿr+h = dr+h + Sj (4.23) 


Individus-km 



.. Données CVS, modèle multiplicatif 

T-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1—t 

oiaicnoooooooooo>-<-<-<- 

oicncnoooooooooooooo 

»-t-t-f\rslf\fMrNrsJfNJfNJfNfNf\fNfN(N 


▲ Figure 4.8 Évolution du transport de voyageurs sur le réseau ferré RATP du 3 e tri¬ 
mestre 1996 au 4 e trimestre 2013 (en individus-kilomètres) : série brute et séries CVS 


Les points clés 

Une série temporelle peut être décomposée en trois éléments : une tendance, une 
composante saisonnière et une composante résiduelle. 


La tendance représente le comportement de long terme de la série étudiée. 


La méthode des moyennes mobiles permet de lisser une série temporelle afin 
d’identifier sa tendance. 


La désaisonnalisation consiste à corriger une série des variations saisonnières. 


Les méthodes de lissage exponentiel permettent de prévoir une série à court terme 
sur la base de ses seules observations passées. 
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1 question à 

Laurent Ferrara 

Chef du service de Macroéconomie 
Internationale à la Banque 
de France et Professeur associé 
à l'Université Paris Ouest 



Dans le cadre de vos études et recherches à la Banque 
de France, est-il important d'identifier la tendance 
d'une série macroéconomique ou financière ? 

Le service de macroéconomie internationale de la Banque de 
France s'occupe du suivi des pays industrialisés 
n'appartenant pas à la zone euro et de sujets plus 
transversaux comme les taux de change, les matières 
premières ou les déséquilibres mondiaux. Lorsque nous 
faisons le suivi conjoncturel de l'économie des pays ou des 
marchés financiers pour le gouverneur de la Banque de 
France, il est important de dégager des messages clairs et de 
ne pas focaliser uniquement sur les derniers chiffres qui 
peuvent refléter des événements exceptionnels, voire 
inexpliqués. Dans un langage statistique et économétrique, 
cela signifie que nous cherchons à identifier le signal 
(c'est-à-dire la tendance et/ou le cycle) par rapport au bruit 
(ou composante résiduelle). 

L'extraction du signal est essentielle pour l'analyse 
économique car les relations macroéconomiques théoriques 
entre les variables sur lesquelles nous nous appuyons 
concernent en général le moyen terme, voire le long terme. 
Ainsi, filtrer le bruit de très court terme et récupérer les 
tendances de moyen et long termes constituent une grande 
partie du travail de conjoncturiste. Dans cette optique, les 
méthodes statistiques et économétriques sont d'une grande 
utilité, notamment les méthodes de lissage de type moyenne 
mobile ou les techniques de filtrage qui permettent de 
décomposer les variables macroéconomiques entre une 
tendance de long terme et une composante cyclique. 


L'intégralité de l'entretien est disponible sur 

www.dunod.com ■ 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 


e. Dans une moyenne mobile d’ordre N, N observa¬ 
tions consécutives sont remplacées par leur moyenne 
arithmétique. 


Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Dans un schéma de décomposition additif, lorsque 
l’on ôte à la série brute Y, les coefficients saisonniers, on 
obtient : 

a. La série estimée Ÿ r . 

b. Une estimation de la tendance. 

c. La composante résiduelle. 

d. La série corrigée des variations saisonnières. 

e. La série corrigée des jours ouvrés. 

Dans le cas d’un schéma de décomposition additif : 

a. La moyenne des coefficients saisonniers est égale à 
l’unité. 

b. La moyenne des coefficients saisonniers est égale à 
la période P de la saisonnalité. 

c. La somme des coefficients saisonniers est nulle. 

d. La somme des coefficients saisonniers est égale à 
l’unité. 


Lissage exponentiel 

a. Le LES est une technique pouvant s’appliquer aux 
séries caractérisées par tout type de tendance. 

b. Le LED s’applique au cas de séries présentant une 
tendance linéaire ainsi qu’une composante saison¬ 
nière. 

c. Plus le paramètre de lissage du LES est proche de 0, 
plus le poids des observations récentes est important. 

d. Lorsque la série comporte une composante saison¬ 
nière, on peut utiliser indifféremment le LES ou le 
LED. 

e. Dans le cas du LES, la valeur prévue de la série ne 
dépend pas de l’horizon de prévision. 

Les valeurs de l’indice Euro Stoxx sont égales à 
3093,124 en janvier 2014 et 3085,865 en février de la 
même année. Les mois de janvier et de février com¬ 
prennent respectivement 23 et 20 jours ouvrés. Si l’on 
retient 21 comme nombre moyen de jours ouvrés pour 
l’ensemble des mois de l’année, entre janvier et février 
2004 l’indice Euro Stoxx a : 


e. La moyenne des coefficients saisonniers est nulle. 

3 Principe de conservation des aires et moyennes 

mobiles 

a. En accord avec le principe de conservation des aires, 
l’influence des variations saisonnières est neutre sur 
l’ensemble de la période étudiée. 

b. En accord avec le principe de conservation des aires, 
l’influence des variations saisonnières est neutre sur 
la période de la saisonnalité. 

c. Une moyenne mobile d’ordre P permet d’éliminer la 
saisonnalité d’ordre P d’une série temporelle. 

d. Une moyenne mobile consiste à lisser une série en 
tenant compte systématiquement de l’ensemble de 
ses observations. 


a. diminué de 0,235 %. 

b. diminué de 23,5 %. 

c. diminué de 14,73 %. 

d. augmenté de 14,73%, 

e. n’a pas évolué. 


Exercices 

Etude de l’évolution de l'indice Euro Stoxx 50 

On s’intéresse à l’évolution du cours de l’indice Euro 
Stoxx 50 lors du mois d’avril 2014. On dispose à cette fin 
des données quotidiennes du 1/04/2014 au 30/04/2014 
(tableau 4.4). 
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Statistique descriptive 


1. Appliquer la méthode du LES à cette série pour les 
trois valeurs suivantes du paramètre de lissage a : 
0,2 ; 0,5 et 0,74. 

2. Déterminer la valeur prévue en t, Ÿ„ de la série pour 
chacune des valeurs de a. En déduire les valeurs de 
l’erreur de prévision u, et calculer les sommes des 
carrés des erreurs de prévision relatives à chaque va¬ 
leur de a. 

3. Selon les résultats obtenus à la question précédente, 
quelle est parmi les trois valeurs de a proposées celle 
qui vous semble la plus appropriée ? Ce résultat était- 
il attendu ? 

4. Quelle est la valeur prévue de la série Y, pour le 
1/05/2014 ? Même question pour le 2/05/2014. 


▼ Tableau 4.4 Indice Euro Stoxx 50 (/,), avril 2014 


Date 

Y t 

Date 

Y t 

01/04/2014 

3186,336 

16/04/2014 

3139,264 

02/04/2014 

3187,45 

17/04/2014 

3155,806 

03/04/2014 

3206,759 

18/04/2014 

3155,806 

04/04/2014 

3230,332 

21/04/2014 

3155,806 

07/04/2014 

3185,967 

22/04/2014 

3199,686 

08/04/2014 

3177,658 

23/04/2014 

3175,973 

09/04/2014 

3182,793 

24/04/2014 

3189,809 

10/04/2014 

3152,864 

25/04/2014 

3147,397 

11/04/2014 

3116,54 

28/04/2014 

3165,837 

14/04/2014 

3131,566 

29/04/2014 

3208,685 

15/04/2014 

3091,524 

30/04/2014 

3198,387 


Source : Datastream. 


Étude des ventes de voitures neuves en France 

On considère la série trimestrielle des ventes de voi¬ 
tures neuves en France entre le premier trimestre de l'an¬ 
née 2006 et le quatrième trimestre de l’année 2013 (ta¬ 
bleau 4.5). 


1. Réorganiser les données figurant dans le tableau 4.5 
sous la fonne d’un tableau à double entrée présentant 
en ligne les années et en colonne les trimestres. 

2 . À partir du tableau précédemment construit, peut- 
on mettre en évidence l’existence d’une saisonnalité 
dans la série ? Commenter. 

3. Calculer la moyenne et l’écart-type, année par année. 

4. On s’intéresse à l’existence possible d’un lien entre 
les valeurs annuelles de la moyenne et celles de 
l’écart-type. Déterminer le coefficient de la pente de 
la droite de régression de l’écart-type sur la moyenne 
et calculer le coefficient de corrélation entre les deux 
séries. Que peut-on en déduire quant à la nature du 
schéma de décomposition à adopter ? 


▼ Tableau 4.5 Ventes de voitures neuves ( Y t ), 
France 


Date 

Y t 

Date 

Y t 

2006/1 

526502 

2010/1 

590869 

2006/2 

582727 

2010/2 

597383 

2006/3 

409138 

2010/3 

432029 

2006/4 

482182 

2010/4 

589905 

2007/1 

519191 

2011/1 

642627 

2007/2 

561417 

2011/2 

557981 

2007/3 

442753 

2011/3 

422728 

2007/4 

541182 

2011/4 

537592 

2008/1 

526121 

2012/1 

501879 

2008/2 

602775 

2012/2 

520836 

2008/3 

446869 

2012/3 

370006 

2008/4 

474518 

2012/4 

464292 

2009/1 

505456 

2013/1 

431388 

2009/2 

625859 

2013/2 

480730 

2009/3 

482186 

2013/3 

367112 

2009/4 

655170 

2013/4 

477721 


Source : ministère de l'Écologie, du Développement durable 
et de l'Énergie. 
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Biais du LES et équations du LED 


Commençons par montrer que l'application du LES à 
une série comportant une tendance non constante de la 
forme d, = at + b conduit à un biais systématique. Par¬ 
tons de l’équation du LES L, = aY, + (1 — a)L,-\ et 
raisonnons par récurrence en se donnant une condition 
initiale L 0 = a + b (avec L 0 = Y\) : 

L\ = aY i +(1 -a)Lo = a(a + b) + (1 - a)(a + b ) = a +b 

(4.24) 

L >2 — tr E 2 t - ( 1 — a )L 1 

= a(2a + b) + (1 - a)(a + b) = 2a + b - a(\ - a) 

(4.25) 

L 3 = üYt, + ( 1 — a)Li = a(3a + b) + ( 1 - a)(2a + b) 

— a( \ — a) 1 - 3a + b - a[( 1 - a) + ( I - u) 2 ] 

(4.26) 

On en déduit : 

L, = (at+b )-«[( 1 —a)+( I -u) 2 + ...+( I -«)'“'] (4.27) 
soit encore : 

L, - d, -a(l -o)[l +(1 -U') + (1 - a) 2 + ... + ( 1 -a)'~ 2 ] 

(4.28) 

D’où : 


L ,r = d, - a-—^[1 -(1 - a)' '] 


non constante au cours du temps conduit donc à une es¬ 
timation biaisée de la tendance. 

Pour des valeurs élevées de L (1 — a)'' 1 tend vers zéro 
et l’on peut écrire : 

L, = d, = d, - a -—— = (at + b) - a- —— (4.30) 

a a 

et le biais asymptotique (c’est-à-dire pour des valeurs 

,, , , . . , 1 - a 

elevees de t) est ainsi donne par -a -. 

a 

Afin de démontrer les équations (4.15) et (4.16) du 
LED, il suffit de remplacer d, = at + b par d, — 
1 — a 

at + b - a -dans la relation (4.30) : 


tt t 1 — a , „ 1 — a 

LL, - L, - a - - d, - 2a- 


(4.31) 


a a 

D’où, en effectuant la différence entre les équa¬ 
tions (4.30) et (4.31) : 


T TT J 1 ~ a T 1 -a 

L, - LL, = d, - a - L, + a - 

a a 


(4.32) 


(4.29) 


Soit finalement : 

2 L, - LL, = d, (4.33) 

On peut en outre réécrire l’équation (4.31) comme suit : 

1 -a 


L, - LL, - a- 


On constate qu’il existe un biais, c’est-à-dire un écart 
entre la valeur estimée L, = d, de la tendance et sa valeur 

J _ ^ 

observée d ,, systématique égal à -a-[ 1 - ( 1 - a )'~ 1 ]. 

a 

Appliquer le LES à une série comportant une tendance 


D’où l’on tire 


a = 


-(L, - LL,) 


(4.34) 


(4.35) 


I - a 

On en déduit alors immédiatement les valeurs estimées 
reportées dans les équations (4. 1 5) et (4.16) du LED. 
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Partie 



Probabilités 
et variable 
aléatoire 


L es concepts de probabilité et de variable aléatoire constituent les notions fondamentales 
de l'analyse statistique. La théorie moderne des probabilités repose sur la notion 
d'espace probabilisable et définit la probabilité comme une mesure appliquée sur une tribu 
d'événements de cet espace. 

La notion de variable aléatoire se comprend alors comme une application mesurable, c'est-à-dire 
une sorte de fonction, définie d'un univers probabilisé vers un univers des réalisations probabilisables. 

Ainsi, toute la théorie moderne des statistiques et ses applications dans le domaine de l'entreprise 
et de la vie courante reposent sur ces deux notions. 
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Chapitre 



L es notions de risque et de probabilité sont 
omniprésentes dans le monde économique. 
Un exemple parmi tant d’autres est celui 
de la détection de la fraude fiscale. Une des 
fraudes les plus coûteuses pour les finances pu¬ 
bliques est celle dite du « carrousel » qui est un 
système sophistiqué permettant à des individus de 
récupérer les trop-perçus de TVA via la créa¬ 
tion puis la suppression rapide de sociétés fictives 
dans plusieurs pays de l’Union européenne. On es¬ 
time qu’en France cette fraude coûterait à l’État 
près de 13 milliards d’euros par an. Le problème 


c’est qu’il est humainement impossible de contrô¬ 
ler les millions de déclarations de récupération de 
TVA. 

Une solution consiste à modéliser statistiquement 
ces transactions et à orienter les contrôles vers les 
transactions présentant la plus grande probabilité 
d’être frauduleuses. Chaque transaction est alors as¬ 
sociée à une probabilité d’être frauduleuse dépen¬ 
dant des caractéristiques de la société, de la nature 
de la transaction, etc. Une solution de ce type a aidé 
l’administration fiscale belge à récupérer plus d’un 
milliard d’euros en quelques années. 



LES GRANDS 

AUTEURS 


Andreï Kolmogorov (1903-1987) 

Andreï Kolmogorov est un mathématicien russe considéré comme l'un des pères fon¬ 
dateurs de la théorie des probabilités. 

Après des études à l'Université de Moscou, Kolmogorov publie ses premiers travaux 
concernant la théorie des ensembles et l'analyse de Fourier dans les années 1920. 
Mais c'est dans son manuel, Fondements de la théorie des probabilités, publié en 
allemand en 1933, qu'il formalise la notion de m-algèbre et pose les bases de l'axio¬ 
matisation du calcul des probabilités que nous verrons dans ce chapitre. ■ 
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Probabilités 



Plan 

il Définitions . 110 

H Probabilités . 116 

Fl Probabilité conditionnelle. 121 

Fl Indépendance. 126 


Pré-requis 

Connaître les principales notions d'analyse combinatoire. 

Objectifs 

Connaître les notions d'expérience aléatoire et d'événement. 

Comprendre la notion d'univers probabilisable. 

Comprendre la notion de probabilité. 

-> Comprendre la notion de probabilité conditionnelle. 

Connaître la notion d'indépendance. 

Savoir appliquer le théorème de Bayes et la formule des probabilités totales. 
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Partie 2 Probabilités et variable aléatoire 


D e façon très globale, la statistique peut être définie comme la branche des 
mathématiques consacrée à la modélisation du risque. Or, la notion de risque 
est associée à celle de probabilité. Mais qu’est-ce qu’une probabilité? Dans 
le langage courant, une probabilité est souvent comprise comme une sorte de mesure 
du caractère probable d’un événement. En fait, on confond souvent les notions de 
probabilité et de fréquence. Ainsi, lorsque l'on prononce la phrase « un accident de la 
route sur deux est dû à l’alcool ou à la vitesse excessive », fait-on référence ou non à 
une probabilité ? 

C’est pourquoi des mathématiciens, comme Andreï Kolmogorov (► encadré les grands 
auteurs), se sont efforcés de définir précisément la notion de probabilité dans le cadre 
de ce que l’on appelle aujourd’hui la théorie des probabilités. Cette théorie permet de 
définir la probabilité comme une mesure appliquée à une tribu d’événements. Cette 
formalisation est essentielle car elle fonde la notion de variable aléatoire (► chapitre 6) 
utilisée dans de très nombreux domaines d’application tels que le marketing quantita¬ 
tif, les mathématiques financières, le traitement d’image, etc. 


D Définitions 


1.1 


Expérience aléatoire 
et univers des possibles 


Définition 5.1 

Une expérience aléatoire est une expérience renouvelable, en théorie ou en pra¬ 
tique, et qui, renouvelée dans des conditions identiques ne donne pas forcément 
le même résultat à chaque renouvellement. 


L’exemple typique d’une expérience aléatoire renouvelable en pratique est celle du 
lancer de pièce. Il est possible de répéter plusieurs fois un lancer de pièce dans les 
mêmes conditions : à chaque lancer, on n’obtiendra pas nécessairement le même ré¬ 
sultat, i.e. « pile » ou « face ». Mais d’autres expériences aléatoires ne peuvent pas être 
renouvelées en pratique dans les mêmes conditions. Si l’on adopte une vision pure¬ 
ment aléatoire du monde, on peut par exemple considérer que la réussite d’un étudiant 
au baccalauréat est une expérience aléatoire qui peut aboutir à l’un des deux résultats 
« admis » ou « non admis ». Bien évidemment, il s’agit dans ce cas d’une représen¬ 
tation théorique de la réussite à l’examen. En effet, dans la pratique, cette expérience 
aléatoire ne peut pas être reproduite plusieurs fois dans les mêmes conditions, c’est- 
à-dire la même année, avec le même sujet et le même niveau de préparation et de 
maturité de l’étudiant, etc. 

Définition 5,2 

L’univers des possibles (ou univers), noté Q. (prononcer grand oméga), est défini 
par l’ensemble de tous les résultats possibles qui peuvent être obtenus au cours 
d’une expérience aléatoire. 


IIO 
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On distingue les univers comprenant un nombre fini de résultats de ceux compre¬ 
nant un nombre infini de résultats. Parmi les univers infinis, on distingue les univers 
infinis non dénombrables des univers infinis dénombrables. Par exemple, l’univers 
Q = {u)\ = {u)i,i e N) est un univers infini dénombrable puisque l’on peut 

identifier chacun des éléments de Q, même s’il en existe une infinité. En revanche, 
Q = R ou Q = ]-oo,a] sont des exemples d’univers infinis non dénombrables. Dans 
le cas d’un univers fini ou infini dénombrable, la taille de l’univers est appelée cardi- 
nalité et est représentée par l'opérateur card (Q). 

Exemple 

On considère une expérience aléatoire correspondant au lancer d’un dé à 6 faces. L’univers 
(fini) des possibles est alors défini par : 

Q = 11,2,3,4,5,6} (5.1) 

La cardinalité de cet univers est égale à 6, Le. card (Q) - 6. 

Exemple 

On admet que le nombre de gouttes d’eau qui tombent pendant une durée d’une heure sur une 
surface donnée est le résultat d’une expérience aléatoire théorique. L’univers des possibles 
est alors défini par l’ensemble des valeurs entières (car on ne peut pas compter 1/2 goutte), 
positives ou nulles (car on ne peut pas avoir un nombre de gouttes négatif) : 

O = {0,1,2,3. n\ (5.2) 

La cardinalité de cet univers est égale à n, i.e. card (O) = n. Si n 6 N, cet univers est fini. Si, 
au contraire n = oo et O = N, cet univers est infini, mais dénombrable. 

Remarque : On oppose la théorie des probabilités discrètes, fondée sur un univers 
fini ou infini dénombrable, et la théorie des probabilités continues, fondée sur un 
univers infini non dénombrable. 

Dans la suite de ce chapitre, nous nous focaliserons essentiellement sur le cas d’un 
univers des possibles fini ou infini dénombrable (théorie des probabilités discrètes). 
Nous étendrons les résultats obtenus au cas infini non dénombrable (théorie des pro¬ 
babilités continues). 


1.2 


Événements 


X! 

O 

c 

ri 

û 


o 

rM 

© 


en 


>- 

CL 

O 

U 


De façon générale, à partir d’un ensemble, il est toujours possible de définir des sous- 
ensembles. Il en va de même pour un univers des possibles. Un sous-ensemble de 
l’univers des possibles est appelé une partie ou un événement. 

Définition 5.3 

Un événement (ou une partie) A est un sous-ensemble de l’univers des possibles 
D, vérifiant A c Q. Un événement constitué d’un seul élément, i.e. pour lequel 
card 04) = 1 , est un événement élémentaire (ou singleton). 


I Le symbole c signifie « est inclus dans ». 
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Exemple 

On considère une expérience aléatoire correspondant au lancer d’un dé à 6 faces, telle que 
O = 11,2,3,4,5,6). L’événement « nombre pair», noté A, correspond au sous-ensemble de 
l’univers fi défini par A = {2,4,6}. L’événement « nombre impair », noté B, correspond au 
sous-ensemble B - {1,3,5}. On peut en outre définir un autre événement C, sans lui attribuer 
un nom particulier, tel que C = (1,5) par exemple. L’événement D = {1} est un événement 
élémentaire ou singleton. 


À partir de la définition d’un événement, nous pouvons à présent introduire les notions 
d’événement certain et d’événement impossible. 


Un événement certain correspond à l'univers des possibles Q. 


Pour bien comprendre le concept d’événement certain, considérons une expérience 
aléatoire particulière où l’univers des possibles se ramène à un seul événement élé¬ 
mentaire. Par exemple, si l’on reprend notre exemple de la réussite au baccalauréat, 
supposons que fi = f« admis »}. Dans ce cas, il n’y a qu’un seul résultat possible : 
notre étudiant est donc sûr de réussir son examen. Il s’agit d’un événement certain. 
De façon générale, P «événement» Q, quelle que soit sa cardinalité, est un événement 
certain. À l’inverse, on peut définir un événement impossible. 

Un événement impossible est un événement qui ne se réalise jamais. Il corres¬ 
pond à l’ensemble vide, noté 0. 


Par exemple, l’événement « avoir 30/20 de moyenne au baccalauréat » est un événe¬ 
ment impossible. On le représente donc par 0. 

Remarque : Il est important de noter que l’événement impossible est un ensemble 
vide, mais qu’un ensemble vide reste un ensemble. Il s’agit d’une sorte de boîte vide, 
mais d’une boîte. Par convention, cet ensemble (ou sous-ensemble) fait toujours partie 
de l’univers des possibles, Le. 0 c fi. Par exemple, les deux notations fi = {cj\ 
et fi = {a>oj n ,0} sont équivalentes. 

Nous pouvons à présent combiner des événements à l’aide d'opérations assemblistes 
(pour utiliser le vocabulaire de la théorie des ensembles). 

Définition 5.6 

Soient deux événements A et B. La réalisation de l’événement C, défini par 
C = A U B (lire A union B), implique la réalisation de l’événement A ou de 
l’événement B, ou des deux événements A et B simultanément. 

Définition 5.7 

Soient deux événements A et B. La réalisation de l’événement D, défini par 
D = A fl B (lire A inter B) entraîne la réalisation de l’événement A et de l’événe¬ 
ment B. 
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Reprenons notre exemple de lancer de dé. À partir de l’univers des possibles 
Q = {1,2,3,4,5,6}, on peut définir plusieurs types d'événements par union ou inter¬ 
section d’événements élémentaires ou d’autres événements (► tableau 5.1). Il convient 
de noter que dans le cas d’un lancer de dé, on ne peut obtenir qu’un seul événement 
élémentaire à la fois (par exemple I ) par lancer. Dès lors, l’événement {{1} U {2)} s’in¬ 
terprète uniquement comme « on obtient un 1 ou un 2 », car le cas « on obtient 1 et 
2 simultanément » est impossible. Pour la même raison, l’événement {{1} fl {2}} est 
impossible car on ne peut pas obtenir à la fois un 1 et un 2. Pour simplifier les nota¬ 
tions, dans ce tableau, nous notons [A U B] à la place {{4} U {B}} lorsque A et B sont 
des événements élémentaires. 


T Tableau 5.1 Exemples d'événements associés à un lancer de dé 


Notation 


Interprétation 


A = {1 U2) 

B = {1 n 2} = 0 
C = (1 U2u3) 

D = { 1 n (2 U 3}| = 0 
Q = {1 Ü2u3u4u5u6) 


On obtient 1 ou 2 

On obtient 1 et 2 : événement impossible 
On obtient 1, 2 ou 3 

On obtient 1 et 2, ou 1 et 3 : événement impossible 
On obtient 1,2, 3, 4, 5 ou 6 : événement certain 


De la combinaison d’événements, nous pouvons déduire les notions d’événements 
disjoints et d’événements complémentaires. 


Deux événements A et B sont disjoints s’ils n’ont pas d’élément en commun, 
i.e. A n B = 0. Ces deux événements sont donc incompatibles : la réalisation 
simultanée de ces événements est impossible. 
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Deux événements A et A appartenant à un ensemble B sont complémentaires si 
leur union correspond à B, i.e. A U A = B. 


La barre horizontale au dessus de la lettre associée à l’événement signifie « complé¬ 
mentaire de ». Par exemple, pour un univers H = {« bleu », « blanc », « rouge »}, 
l’événement A = {« bleu »} est le complémentaire de l’événement A = {« blanc », 
«rouge»}. 


1.3 


Ensemble d'événements 


À partir d’événements combinés ou d’événements élémentaires (singletons), il est 
possible de définir des ensembles d’événements ou parties d’événements. 
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Exemple 

Pour un univers Q = {A,B,C\, on peut définir les événements /4U8,8nCoUi4U{finC}. 
À partir de ces événements et du singleton jC|, on peut alors construire un ensemble d’évé¬ 
nements (ou partie) D tel que : 

Q=IMU B},\B n C}, {A U (g n C}), |C} | (5.3) 

événement événement événement événement 


Une notion essentielle est celle d’ensemble de tous les événements réalisables ou 
d’ensemble des parties. Cet ensemble recense tous les événements qu’il est possible 
de définir à partir de l’univers des résultats. 

Définition 5.10 

L’ensemble des parties, noté 'P (fi), correspond à l’ensemble de tous les événe¬ 
ments réalisables à partir des événements élémentaires de l’univers Q. Par conven¬ 
tion fi e P (Q) et 0eP (fi). 

Par convention, l’événement certain (univers) et l’ensemble des événements impos¬ 
sibles appartiennent toujours à l’ensemble des parties P (Q). Attention, il convient de 
ne pas confondre l’univers de tous les résultats possibles fi et l’ensemble P (fi) de 
tous les événements que l’on peut définir à partir de fi. 

Exemple 

Considérons l’exemple d’un lancer de dé à trois faces. L’univers des résultats possibles est 
fi = 11,2,3). En effet, le résultat de l’expérience aléatoire, c’est-à-dire du lancer de dé, sera 
soit 1, soit 2 ou soit 3. En revanche à partir de cet univers de cardinalité égale à 3, on peut 
construire 2 3 = 8 événements (ou parties) recensés dans le tableau 5.2. 

▼ Tableau 5.2 Ensemble des événements pour un lancer de dé à trois faces 


(1) 

On obtient 1 

n u 3} 

On obtient 1 ou 3 

12) 

On obtient 2 

{2 U 3) 

On obtient 2 ou 3 

13) 

On obtient 3 

{1 u2u3| 

On obtient 1,2 ou 3 

{1 U 2} 

On obtient 1 ou 2 

0 

Événement impossible 


Par convention, on inclut l’ensemble vide dans l’ensemble des parties. Par conséquent, 
l’ensemble de tous les événements réalisables P (fi) est défini par : 

P (fi) = {{1 ), (2), {3}, {1 U 2}, {1 U 3}, (2 U 3), {1 U 2 U 3} ,0} (5.4) 

L’événement {I U 2 U 3), qui s’interprète comme le fait d’obtenir 1, 2 ou 3, peut être 
noté sous la forme {1,2,3} et correspond à l’événement certain (univers) fi. On peut 
donc aussi noter l’ensemble des parties sous la forme suivante : 

P (O.) = {{1}, {2}, {3}, (1 U 2}, jl U 3}, {2 U 3} ,fi,0} (5.5) 

Remarque : Pour un univers des possibles fi de dimension finie, de cardinalité 
carcl (fi) = n, la cardinalité de l’ensemble des parties P (fi) est égale à : 

card(P( fi)) = 2" (5.6) 


Événement Interprétation 


Événement Interprétation 
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1.4 


Tribu d'événements et espace 
probabilisable 


Une tribu ou cr-algèbre (prononcer sigma-algèbre) sur un univers fini ou infini est 
un ensemble d’événements de cet univers vérifiant deux principales propriétés : la 
stabilité par passage au complémentaire et la stabilité par réunion dénombrable. 


Définition 5.11 

Une tribu ou cr-algèbre sur l’univers Q est un sous-ensemble d’événements ou 

de parties, notée T, vérifiant : 

1. f çP (Ü), O e f et 0 e f. 

2. L’ensemble T est stable par passage au complémentaire : pour tout événe¬ 
ment A de < F, l’événement complémentaire A appartient à l’ensemble T . 

VA eT alors A eT (5.7) 

3. L’ensemble J{ est stable par réunion dénombrable : pour toute suite d'évé¬ 
nements (A„)„ eN appartenant à T, l’union de ces événements appartient à l’en¬ 
semble 7 r . 

(^«)neN e T alors |^J A„ € (5.8) 
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Par convention, on note les tribus par des lettres avec une police de caractère dite cal¬ 
ligraphique, comme par exemple JA, B, T , etc. Le point important de cette définition 
est que la stabilité par réunion dénombrable garantit que toute union de sous-éléments 
(événements) de la tribu est équivalente à un autre événement qui appartient lui même 
à la tribu. 

Exemple 

Soit un univers il = (1,2,3), alors l’ensemble = (0,| 1 },{2,3),Q) est une tribu sur il. En ef¬ 
fet, cet ensemble appartient à l’ensemble des parties V (il). De plus, il comprend l’ensemble 
vide 0 et l’événement certain (univers) il. Cet ensemble est stable par passage au complé¬ 
mentaire. Par exemple, si l’on pose par exemple B = (1), alors B = (0,{2,3),Q) e SA, et il en 
va de même pour tout sous-ensemble de ;/l. Enfin, si l’on considère par exemple l’union des 
événements (1) et (2,3), on obtient un événement C = (1 U (2,3)) = 12 e 71. On obtient un 
résultat similaire pour toute union des sous-ensembles de A. 

Il existe plusieurs exemples de tribus « évidentes ». La tribu triviale (ou tribu grossière) 
est la plus petite tribu sur Q. Elle est définie par T = |0,£2}. Dans le cas d’un univers 
fini ou infini dénombrable, une autre tribu « évidente » est donnée par l’ensemble des 
parties V (fi). 

, Ecoarifité 

Ensemble des parties 

Si l’univers Q est fini ou infini dénombrable, l’ensemble des parties V (L2) est une 
tribu sur fL 

2 Le terme de tribu, utilisé en français pour dénommer les rr-algèbres, a été introduit dans un article publié 
en 1936 par René de Possel. 
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Les tribus permettent de définir la notion d’univers probabilisable . 

. Bfifinitisa& lZ 

Un univers probabilisable est un couple {£l,T) où T est une tribu (ou cr-algèbre) 
sur l’univers 


Dans le cas d'un univers fini ou infini dénombrable, un univers probabilisable est 
donné par (Q,P(Q)) puisque P(Q) est une tribu sur Q. 

Exemple 

On considère l’expérience aléatoire qui consiste à lancer un dé à trois faces parfaitement 
équilibrées. L’univers des résultats possibles est 12 = {1,2,3}. Comme nous l’avons vu précé¬ 
demment, l’ensemble des parties P(£2) est défini par : 

P(ii) = {{1}, {2}, (3), |1 U 2}, {1 U 3}, {2 U 3}, {1 U 2 U 3} ,0} (5.9) 

Puisque l’univers £2 est fini, l’ensemble des parties P (£2) est une tribu (ou cr-algèbre) sur £2 et 
le couplet (£2,f’(£2)) est un univers probabilisable. Un univers probabilisable est un univers 
de résultats sur lequel nous pouvons définir des probabilités. 


Remarque : En règle générale (mais pas toujours), dans le cas d’un univers fini ou 
infini dénombrable, on définit les probabilités sur l’univers probabilisable (D^fD)), 
où la tribu sur £2 correspond à l’ensemble des parties. 


|2 


■ 

a 

2.1 


Probabilités 

Définition générale d'une probabilité 


Une mesure de probabilité (ou probabilité) est une application qui associe à tout 
événement appartenant à une tribu une valeur sur [0,1 ]. 


Dafinj.tiflP-5,.13 

Soit (Q ,T) un univers probabilisable fini ou infini dénombrable. Une probabilité 
(ou mesure de probabilité) est une application Pr : T —> [0,1 ], telle que : 

1. Pr(Q) = 1. 

2. Pour toute suite d’événements disjoints (A n ) neN de T on a (propriété de <x- 

additivité) : 

p r |J A " = Z Pr(/U (5 ’ ,0) 

VieN ' neN 


Pour tout événement A ef, le nombre Pr 04) correspond à la probabilité de l’événe¬ 
ment A. Reprenons notre exemple de lancer de dé à trois faces. 

3 Les termes d'espace probabilisable, d’espace mesurable ou d’univers mesurable sont aussi souvent em¬ 
ployés. 
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Exemple 

On considère l’expérience aléatoire qui consiste à lancer un dé à trois faces parfaitement 
équilibrées avec 0 = 11,2,3). L’ensemble des parties P (Q) est : 

P (fl) = HD. {2}, {31, {1 U 2), {1 U 3), {2 U 3), 11 U 2 U 3} ,0} (5.11) 

Le couplet (O,? 5 (fi)) est un univers probabilisable, on peut donc lui associer une mesure 

de probabilité Pr : P (fi) —» [0,1], telle que pour tout événement A e P (Lï) il existe une 

probabilité Pr(A) e [0,1]. Puisque le dé est parfaitement équilibré, les événements élémen¬ 
taires jl), ]2) et (3) sont équiprobables et leur probabilité est égale à 1/3. On en déduit les 
probabilités pour tous les événements de P (fi). Le tableau 5.3 synthétise ces 2? - 8 probabi¬ 
lités. On vérifie que la probabilité associée à l’événement certain (univers des résultats fi) est 
égale à 1, tandis que la probabilité associée aux événements impossibles 0 est égaie à 0. On 
vérifie en outre que cette mesure de probabilité satisfait la propriété de cr-additivité, qui est 
la conséquence de la propriété de stabilité par réunion de la rr-algèbre P(£2). La probabilité 
associée à l’union de n’importe quels événements disjoints de la tribu P (il) est égale à la 
somme des probabilités des événements. Par exemple : 

Pr({ 1} U (2)) = Pr(A| UA 2 ) = P(A t ) + P(A 2 ) = | (5.12) 

Pr ({1 U 2} U (3)) = Pr(A 4 U A 3 ) = P (An) + P(A 3 ) - 1 (5.13) 


▼ Tableau 5.3 Probabilités pour un lancer de dé à trois faces 


Événement 


Ai =( 1 ) 
>4 2 = (2) 
^3 = O! 
A 4 = {1 U2] 


Probabilité 


Pr(Ai) = 1/3 
Pr (>4 2 ) = 1/3 
Pr (A 3 ) = 1/3 
Pr (A4) = 2/3 


Événement 


>45 = (1 U 3} 
>4 6 = {2 u 3) 
n = (1u2u3| 

0 


Probabilité 


Pr (As) = 2/3 
Pr (>4 6 ) = 2/3 
Pr(fî) = 1 
Pr(0) = O 
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Remarque : Si l’univers est infini non dénombrable, les probabilités associées aux 
« événements élémentaires », par exemple Pr ({2}), tendent vers 0 puisque la somme 
infinie de ces probabilités est égale à 1. Seules les probabilités associées à des évé¬ 
nements composés du type Pr ({[2,4])), c’est-à-dire la probabilité d’appartenir à l’in¬ 
tervalle de valeurs [2,4], sont non nulles. On dit alors que la probabilité d’être en 
point (singleton) est nulle. C’est ce qui fonde la différence entre les variables aléa¬ 
toires continues et les variables aléatoires discrètes (► chapitre 6 sur les variables 
aléatoires). 

La mesure de probabilité nous permet de définir un univers probabilisé (ou un espace 
probabilisé). 

Définition 5.14 

Un univers probabilisé est un triplet Pr) où T est une rr-algèbre sur l’uni¬ 
vers Q. et Pr(.) une mesure de probabilité. 


4 Au sens strict, le terme d’événement élémentaire est inapproprié dans ce cas. 
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2.2 


Définition axiomatique 


Dans le cas d’un univers fini, on peut proposer une définition équivalente de la proba¬ 
bilité, dite définition axiomatique. Ces axiomes des probabilités sont aussi appelés 
axiomes de Kolmogorov (► encadré : les grands auteurs). 


Définitlon^lS 

Soit (O.'F) un univers probabilisable fini tel que D = {u>\,...,u>„} et soit ’PiQ.) 
l’ensemble des parties, avec T Q !P(D). Une probabilité est une application 
Pr : T —* [0,11, telle que : 

1. La somme des probabilités associées aux événements élémentaires (ou single- 
tons) a>i est égale à 1 : 

n 

J]Pr(m,)=l (5.14) 

/=i 

2. La probabilité d’un événement A e T est égale à la somme des probabilités 
associées aux événements élémentaires tu, qui le constituent : 

Pr(A) = Pr(a>,) (5.15) 

cjj€A 


Reprenons notre exemple. 

Exemple 

On considère l’expérience aléatoire qui consiste à lancer un dé à trois faces parfaitement 
équilibrées avec Q = {1,2,3}. On vérifie que pour 1 ’ universprobabilisé (fi,lP(Q), Pr) décrit 
précédemment, on a bien : 

Pr({l}) + Pr({2}) + Pr({3})=i + i + i = 1 (5.16) 

Par ailleurs la probabilité de tout événement A e P (SA) est égale à la somme des probabilités 
associées aux événements élémentaires qui le constituent. Par exemple, pour l’événement 
A = {2 U 3), on a : 

Pr({2 U 3}) = Pr({2}) + Pr({3|) = + | = | (5.17) 

De ces définitions, nous pouvons déduire certaines propriétés de la mesure de proba¬ 
bilité. 

Propriété 

Mesure de probabilité 

Soit un univers probabilisé (O,,T, Pr), alors quels que soient les événements A et B 
appartenant àf çP (Q), la mesure de probabilité Pr vérifie : 

1. Pr(Q) = 1. 

2. Pr(0) = 0. 

3. Pr (Â) = 1 -Pr(A). 

4. Pr (A U B) = Pr (A) + Pr (B) - Pr (A fi B). 

5. Si A c B, alors Pr(A) < Pr(B). 
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La première propriété signifie que la probabilité associée à l’événement certain (uni¬ 
vers) est égale à 1. La seconde propriété signifie que la probabilité associée à tout évé¬ 
nement impossible est nulle. La troisième propriété découle de la propriété de stabilité 
par passage au complémentaire de la tribu : la probabilité d’un événement est toujours 
égale à 1 moins la probabilité de son événement complémentaire. La quatrième pro¬ 
priété implique notamment que si deux événements À et S sont incompatibles (ou 
disjoints), c’est-à-dire si si A fl B = 0, alors : 


Pr (A U fi) = Pr 04) 4- Pr (fi) 


(5.18) 


Exemple 

On considère une famille qui a 2 enfants. Calculons les probabilités associées aux événe¬ 
ments A : « deux enfants sont de sexe différent » et fi : « il y a au plus une fille ». Dans 
cette expérience aléatoire, on peut représenter l’univers des possibles par un ensemble de 4 
couplets [a,b) où a désigne le sexe du premier enfant et b le sexe du deuxième enfant. 

n = ({G,G}, {G,F ], (F,G), (F,Fil (5.19) 

où G désigne un garçon et F une fille. Si l’on admet que ces événements sont équiprobables, 
alors les probabilités associées à ces quatre événements élémentaires (singletons) sont égales 
à 1/4. Calculons la probabilité de l’événement A : 

Pr(4) = Pr({F,GlU{G,F}) (5.20) 

= Pr(fF,G}) + Pr({G,F}) - Pr({F,G} n (G,F}) (5.21) 


Puisque les événements élémentaires [F,G] et {G,F) sont disjoints (attention à l’ordre des 
enfants), Pr({F,G) n [G,F)) = 0. On en déduit que la probabilité de l’événement «deux 
enfants sont de sexe différent » est égale à : 


1 1 1 

ft(A)= 4 + 4 = 2 


(5.22) 


De la même façon, on peut déterminer la probabilité de l’événement « il y a au plus une fille ». 
Cet événement signifie qu’il y a soit une fille comme premier enfant, soit une fille comme 
second enfant, soit aucune fille parmi les deux enfants. 


Pr(fi) = Pr((F,G}UlG,F}U|G,Gl) 

- Pr((F,Gl) + Pr({G,F() + Pr({G,G}) 


(5.23) 

(5.24) 


puisque les trois événements élémentaires sont disjoints deux à deux. Donc : 


Pr(fi) = 


I 1 

4 + 4 + 


4 


3 

4 


(5.25) 
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On peut enfin définir le concept de suite croissante ou décroissante d’événements et 
la propriété de limite monotone. 

Définition 5.16 

Soit (À„) neN une suite d’événements. On dit que cette suite est croissante si 
Vn e N, A n c A, t+] et décroissante si V/7 6 N, A n+ \ c A n . 


Pour une suite croissante, on obtient : 



lim Pr(/4„) 

n—>oo 


(5.26) 
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Pour une suite décroissante, on obtient : 



lim Pr (A n ) 

ll—>oo 


(5.27) 


2.3 


Fréquence d'événement et probabilité 


Nous avons défini une expérience aléatoire comme une expérience pouvant être répé¬ 
tée, en pratique ou en théorie, dans les mêmes conditions. Dans ce contexte, il existe 
une troisième façon de caractériser (et non de définir) une probabilité associée à un 
événement en utilisant la fréquence d’apparition (ou fréquence empirique) de cet évé¬ 
nement. Cette approche est appelée l’approche fréquentiste. 


Définition 5.17 

On considère une expérience aléatoire répétée s fois dans des conditions stricte¬ 
ment identiques. La fréquence d’apparition de l’événement A € 'P(Q) est définie 
par : 

„ Nombre de fois où A se réalise _ 

F s (A) =- (5.28) 

s 


Exemple 

On considère un lancer de dé à trois faces, avec SI = {1,2,3}, pour lequel on s’intéresse à 
l’événement « obtenir un 1 ». On suppose que l’on peut répéter le lancer 100 fois exactement 
dans les mêmes conditions. Si l’on obtient un I dans 37 tirages, la fréquence de l’événe¬ 
ment {1} sera alors égale à F 10 o ({1}) = 37 %. 

Dans la vie quotidienne, il est courant de confondre les notions de fréquence et de 
probabilité. Or ces deux notions ne sont absolument pas équivalentes. Si 80 000 ly¬ 
céens de terminale sur 100 000 obtiennent leur baccalauréat, cela ne signifie pas que, 
pour un étudiant donné, la probabilité de réussite est égale à 80 %. La seule relation 
qui existe entre les deux notions, c’est que la fréquence converge vers la probabilité si 
l’on peut répéter l’expérience une infinité de fois dans les mêmes conditions. 

PrQP-dftté 

Convergence de la fréquence 

Lorsqu’il est possible de réaliser l’expérience aléatoire une infinité de fois dans 
les mêmes conditions, la fréquence d’apparition de tout événement A e <P (O) 
converge vers sa probabilité : 

lim F, (A) = Pr(A) (5.29) 

S—>oo 

Attention, il convient de noter que cette propriété n’est pas une définition de la proba¬ 
bilité. Considérons l’exemple du lancer de pièce avec Q = {« pile »,« face »}. Si l’on 
lance la pièce dans les mêmes conditions un grand nombre de fois et que l’on ob¬ 
tient « pile » dans 48 % des cas, cela veut juste dire que la probabilité de l’événement 
« pile » peut être approchée par 0,48. La fréquence est donc un moyen de « quantifier » 
ou d’estimer (► chapitre 9) la probabilité d’un événement. 

Le problème de cette propriété est que l’on ne peut que rarement répéter une expé¬ 
rience aléatoire une infinité de fois dans les mêmes conditions. Par ailleurs, même 
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si cela est possible en théorie, comment traduire la notion d’infini ? Combien de ré¬ 
pétitions de l’expérience sont nécessaires pour obtenir une évaluation précise de la 
probabilité? Admettons que 100 000 répétitions de l’expérience soient suffisantes et 
que l’on obtienne une fréquence de 0,47 pour un événement A. Que se passe-t-il si 
l’on fait une 100 001 e répétition supplémentaire? Si l’événement A se réalise à nou¬ 
veau, la fréquence passe alors à 0,47001. Quel est le niveau de la probabilité Pr(A), 
0,47 ou 0,47001? 

Tout ceci illustre le fait que la fréquence et la probabilité sont des objets de natures 
très différentes : la fréquence est une variable aléatoire tandis que la probabilité est 
une constante. Nous ne pouvons pas dire que la probabilité correspond ou est définie 
par la fréquence. C’est seulement dans le cas hypothétique où s —» oo que les deux 
objets coïncident : la fréquence converge alors vers la probabilité. De façon générale, 
nous verrons que la fréquence est un estimateur de la probabilité (► chapitre 9). 


3 



1 

3.1 


Probabilité conditionnelle 

Définition de la probabilité conditionnelle 


On considère une expérience aléatoire représentée par un univers probabilisé 
(O,'F, Pr). On s’intéresse à la probabilité d’un événement A e T. Mais, alors que 
l’expérience n’est pas réalisée, c’est-à-dire avant que l’on obtienne le résultat, on ob¬ 
tient une information qui se traduit par un événement B e T. La probabilité associée 
à l’événement A doit donc tenir compte de l’événement B. Cette probabilité associée 
à l’événement A sachant l’événement B est appelée probabilité conditionnelle. 


Définition 5.18 


Soit un univers probabilisé (Cl,T, Pr) et soient A et S deux événements apparte¬ 
nant à la tribu T sur Q, tels que Pr(B) > 0. La probabilité conditionnelle de 
l’événement A sachant B est définie par : 


Pr(A| B) 


Pr (A O B) 
Pr (B) 


(5.30) 


~o 

O 

c 

ri 

û 


o 

rM 

© 


en 


>- 

CL 

O 

U 


Le conditionnement dans la mesure de probabilité est indiqué par une barre verticale. 
À gauche de cette barre figure l’événement pour lequel on cherche à déterminer la 
probabilité conditionnelle (A) et à droite de celle-ci figure l’événement dit « de condi¬ 
tionnement » (B). On note aussi parfois la probabilité conditionnelle de A sachant B 
sous la forme Prg(A). Mais quelle que soit la notation adoptée, il convient de re¬ 
marquer que l’événement de conditionnement a nécessairement une probabilité non 
nulle pour que la probabilité conditionnelle soit définie. Dit autrement, un événement 
impossible ne peut pas être un événement de conditionnement. 

Exemple 

On considère un patient qui peut suivre au choix deux traitements, notés A et B. La probabilité 
qu’il suive le traitement A est égale à 75 %. On sait par ailleurs que la probabilité de succès du 
traitement A est égale à 80 %, tandis que celle du traitement B est égale à 90 %. On admet que 
la probabilité que ce patient soit guéri, événement noté G, est égale à 82,5 %. Déterminons la 
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probabilité que le patient ait suivi le traitement A sachant qu'il est guéri. D’après la définition 
de la probabilité conditionnelle, il vient : 


Pr( A| G) = 


Pr(A nG) 
Pr (G) 


Pr(G|A) x P(A) 
Pr (G) 


0,8 x 0,75 
0,825 


= 0,7273 


(5.31) 


La probabilité conditionnelle étant une probabilité, elle vérifie nécessairement la dé¬ 
finition générale de la section 2. En particulier, on peut montrer que la probabilité 
conditionnelle de l’événement certain sachant n’importe quel événement A € F est 
égale à 1. 


Pr(Q|A) 


Pr(Qn A) 
Pr (A) 


Pr (A) 
Pr(A) 


(5.32) 


Pour les mêmes raisons, la probabilité conditionnelle d’une union d’événements dis¬ 
joints (A\,...,A„) correspond à la somme des probabilités de ces événements : 


Pr 


IJ AI B 


w=l 


i= I 


(5.33) 


Par exemple, pour deux événements disjoints (A| ,A 2 ) € F 2 , on a : 


Pr(A, U A 2 \B) = Pr(A,|F) + Pr(A 2 |B) (5.34) 


Compte tenu de la définition de la probabilité conditionnelle, on note immédiatement 
que pour deux événements de probabilité non nulle A et B, on peut déterminer la 
probabilité de l’intersection An B, dite probabilité jointe, de deux façons. 

Définition 5,19 

Soit un univers probabilisé (O,F, Pr) et deux événements (A,B) e F 2 , tels que 
Pr(A) > 0 et Pr(fî) > 0. La probabilité jointe associée à l’événement A n B est 
définie par : 

Pr(A n B) = Pr (A| B) x Pr(B) = Pr ( B\ A) X Pr(A) (5.35) 


Cette définition peut se généraliser à plus de deux événements par la formule de l’in¬ 
tersection ou formule des probabilités composées. 

Propriété 

Formule de l'intersection 

Soit un ensemble d’événements (A|,...,A„) e F" tels que Pr(Ai D ... nA„) > 0, 
alors la probabilité jointe associée à l’événement Ai n ... fl A, , est définie par : 

Pr(A| n ... fl A„) = Pr (Ai) X Pr(A 2 |Ai) X Pr(A 2 |Ai fl A 2 ) X ... 

xPr(A„|A| n ... n A„_i) (5.36) 


Cette formule des probabilités composées est particulièrement utile pour calculer des 
probabilités d’intersections, notamment dans le cas d’une succession d’expériences 
aléatoires. 
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Exemple 

On dispose d’une urne contenant n— 1 boules noires et 1 boule rouge. On tire au hasard les 
boules une à une sans remise (il s’agit ici d’une succession d’expériences) et l’on cherche à 
calculer la probabilité que l’on obtienne la boule rouge à l’issue du ï’ me tirage avec 1 < i < n. 
On définit A, comme l’événement « le i 1 '"' 1 ' tirage est un échec » et B, comme l’événement « le 
i eme tirage est un succès ». Par définition : 

Pr(5,) = Pr(/4i n ...nA w n B t ) (5.37) 

Par application de formule de l’intersection, on obtient : 

Pr(fi,j = Pr(A|) X Pr(A 2 |A,) x Pr(A 3 |A, n A 2 ) X ... 

... xPrfiVilA, n ... DA,_ 2 ) x Pr(5,|A, n...nA H ) (5.38) 


Au premier tirage, il y a n boules dans l’urne et la probabilité d’un échec est égale à : 

Pr(A,)= — (5.39) 

n 

Au deuxième tirage, puisqu’il ne reste que n - I boules au total, la probabilité conditionnelle 
d’un nouvel échec est égale à : 

Pr(A 2 |A| ) = (5.40) 

n — 1 

Plus généralement, au tirage i - 1, il reste n — i + 2 boules dans l’urne et la probabilité 
conditionnelle d’un échec est : 


Pr(A,-_,|xi, n... n A,_ 2 ) = ; . + l (5.41) 

n -1 + 2 

Enfin, au i emc tirage, il ne reste que n- i + 1 boules dans l’urne, La probabilité conditionnelle 
d’obtenir la boule rouge sachant que l’on a échoué jusque-là est égale à : 


Pr(/?;|A, n ... n A,_,) = 


1 


n — / + 1 

Par conséquent, la probabilité de réussite au i emc tirage est égale à 1/n. 

I 1 


Pr(B;> 


n -1 n- 2 n-i+ 1 

-x-- x ... x-- x 


1 


i + 2 


■i + l 


(5.42) 

(5.43) 


Em miété 

Inclusion 

Soit un univers probabilisé (Lï,'F, Pr) et deux événements (A,B) e T 2 , tels que 
A c B, alors : 

Pr(fi|A) = Pr(B)-Pr(A) (5.44) 


3.2 


Système complet et théorème de Bayes 
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Définition 5.20 

Soit (Ai) ie[ une suite finie ou infinie dénombrable d’événements appartenant à la 
tribu F. On dit que les événements A/ forment un système complet si les trois 
conditions suivantes sont satisfaites : 

1. Les événements Aj et Aj sont disjoints, V /1 j. 

2. (J Ai = Q. 

ie/ 

3. Pr(A,)>0, Vi€/. 
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Dans le cadre d’un système complet d’événements, on peut établir deux résultats fon¬ 
damentaux qui sont très utilisés dans la pratique : 

- la formule des probabilités totales ; 

- le théorème de Bayes ou formule de probabilité des causes. 

Propriété 

Formule des probabilités totales 

Soit (A,) is/ un système complet d’événements et soit un événement fi e 7”, alors : 

Pr(B) = ^Pr(B|A,)xPr(Ai) (5.45) 

iel 


Ce résultat découle de la définition du système complet. En effet, on peut toujours 
écrire la probabilité Pr(fi) comme Pr (B n Q). Dès lors, d’après les propriétés d’un 
système complet, il vient : 


Pr(B) = Pr(finQ) = Pr fl n 


U A' =Pr |J (flnAi) 

V iel )) V iel 


= ^ Pr (fi n A,) = 2 Pr( fi| A,) xPr (A,) 

iel iel 


(5.46) 

(5.47) 


Exemple 

Une voiture est produite dans quatre usines, notées t/, pour i = l,...,4. On note /), = Pr(t/,) 
la probabilité que la voiture provienne de l’usine U,, avec p\ = 0,2, pi = 0,3, p 2 = 0,4 et 
p 4 = 0,1. Pour chacune de ces usines, la probabilité que la voiture soit défectueuse est notée 
d n avec d t = 0,05, d 2 = 0,01, d 2 = 0,01 et d 4 = 0,02. Bien évidemment, ces probabili¬ 
tés doivent être comprises comme des probabilités conditionnelles de défaut sachant que la 
voiture est produite dans l’entreprise i et peuvent se noter sous la forme d, = Pr( D| U-,) où 
D représente l’événement « défaut ». Le système complet peut être représenté sous la forme 
d’un arbre des « défauts » comme sur la figure 5.1. 


Pi =o, 


P„= o,i 


Usine u 


Défaut 



D ND D ND D ND D ND 

c/, = 0,05 d 2 = 0,01 d 3 = 0,01 d 4 = 0,02 


▲ Figure 5.1 Arbre des défauts 

Calculons la probabilité qu’une voiture soit défectueuse. D’après la formule des probabilités 
totales, on a : 

4 

Pr(D) = Yj Pr (°l u i) x Pr(C,-) (5.48) 

i=i 

Ainsi, on montre qu’il y a 1,9 % de chances que la voiture soit défectueuse : 

Pr(D) = 0,2 x 0,05 + 0,3 x 0,01 + 0,4 x 0,01 + 0,1 x 0,02 = 0,019 (5.49) 
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Théorème de Bayes 

Soit (A,) ie/ un système complet d'événements et soit un événement B e T, tel que 
Pr(S) > 0, alors V/ e / : 


Pr(A,|fi) 


Pr( B\Aj) x Pr(A,) 
E^Pr(fi|A 7 )xPr(A ; ) 


(5.50) 


Le théorème de Bayes se déduit immédiatement de la formule de la probabilité totale, 
puisque : 


Pr (Ai n B) Pr(B|A,)xPr(A,) 
Pr(fl) " Z /e/ Pr (S| A;) xPr (A,-) 


(5.51) 


Remarque : Dans le cas particulier où les deux événements A et S forment un système 
complet, le théorème de Bayes correspond à la définition « intuitive » de la probabilité 
conditionnelle et peut s’écrire sous la forme : 


Pr ( A| B) 


Pr(A n B) 
Pr (B) 


(5.52) 


Le théorème de Bayes est le fondement de la statistique et de Péconométrie Bayé- 
sienne, dans laquelle la probabilité Pr ( A,| B) est appelée une probabilité a posteriori et 
Pr (A,-) est une probabilité a priori. La probabilité a posteriori sert notamment à mettre 
à jour ou actualiser les estimations d’une probabilité ou d’un paramètre quelconque, à 
partir des observations (voir Greene, 2005). 


Remarque : Le théorème de Bayes est aussi appel é formule de probabilité des causes. 
En effet, admettons que les événements A, pour i e I s’apparentent aux « causes » de 
l’événement B. La probabilité Pr ( A,j B) s’interprète alors comme la probabilité que la 
cause A, soit responsable de la survenue de l’événement B, sachant que l’événement B 
s’est réalisé. 


Le théorème de Bayes est en effet particulièrement adapté pour identifier les « causes » 
d’un événement. Reprenons notre exemple de voiture défectueuse. 


Exemple 

Une voiture est produite dans quatre usines, notées U, pour i = 1.4. On note p, = Pr ( U, ) 

la probabilité que la voiture provienne de l’usine U t , avec p\ - 0,2, pi - 0,3, p 3 — 0,4 
et p 4 = 0,1. Pour chacune de ces usines, la probabilité que la voiture soit défectueuse est 
notée d it avec d\ = 0,05, di = 0,01, = 0,01 et d\ = 0,02. Considérons une voiture 

défectueuse prise au hasard et calculons la probabilité qu’elle provienne de la i emr usine. 
D’après le théorème de Bayes, on a : 


Pr( £//| D) 


Pr( D| U-,) x Pr(Uj) 
lj =1 Pr(D|t/,)xPr(£/,) 


Pr( D| Ui) x Pr([/,) 
Pr(D) 


Vi= 1.4 


(5.53) 


D’après le résultat de l’exercice précédent, nous savons que la probabilité (totale) de défaut 
est égale à 1,9 %. 


Pr(£» = Y j Pr(D\Uj) 

j= i 


xPr(U 7 ) = 0,019 


(5.54) 
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Par conséquent, on obtient : 


Pr ( t/, | D) 
Pr (t/ 310 ) 


0,05 x 0,2 
0,019 
0,01 x 0,4 
0,019 


0,5263 

0,2105 


Pr( t/ 2 | D) 
Pr( t/ 4 | D) 


0,01 x0,3 
0,019 
0,02x0,1 
0,019 


0,1579 

0,1053 


(5.55) 

(5.56) 


Puisque le système d’événements est complet, la somme de ces probabilités conditionnelles, 
par construction, est égale à 1. En conclusion, une voiture défectueuse prise au hasard a la 
plus forte de chance de provenir de l’usine 1. 


□ Indépendance 

Intuitivement, deux événements A et S sont indépendants lorsque la connaissance 
de l’un n’apporte aucune information quant à la probabilité de survenue de l’autre, 
Le. lorsque Pr(A|B) = Pr(A) et que Pr(B|A) = Pr(fî). Ce résultat implique 
Pr(A fl B) = Pr(A) X Pr (B). L’inconvénient de cette définition intuitive est qu’elle 
n’est valable que pour des événements non impossibles, c’est-à-dire des événements 
associés à une probabilité strictement positive. Mais lorsqu’un événement est impos¬ 
sible, il est évident qu’il n’a aucun impact sur l’autre. C’est pourquoi, on peut adopter 
cette définition. 

Définition 5.21 

Soit un univers probabilisé (Q,(F, Pr) et deux événements (A,B) e T 2 . Les évé¬ 
nements A et B sont dit indépendants si : 

Pr(A C\ B) = Pr(A) X Pr(B) (5.57) 


Il est important de noter que la définition de l’indépendance est donc relative à une 
mesure de probabilité Pr. Les événements A et B sont indépendants pour une certaine 
mesure de probabilité. Pour une autre mesure, ils peuvent ne pas être indépendants. Par 
ailleurs, deux événements peuvent être indépendants dans une expérience aléatoire, et 
non indépendants dans une autre. 

Exemple 

On considère une famille qui a 2 enfants. Dans ce cas, les événements A : « deux enfants 
sont de sexe différent » et B : « il y a au plus une fille » ne sont pas indépendants. En effet, 
l’univers des possibles est défini par : 

n = {{G,G), (G,C), |F,G), (F,Fil (5.58) 

où G désigne un garçon et F une fille. Si ces quatre événements élémentaires sont équipro¬ 
bables, alors : 

Pr (A) - Pr((F,G) U |G,F1) = ^ (5.59) 

Pr(B) = Pr(|F,G) U |G,F) U (G,G)) =\ + \ + ^ = l (5-60) 

Pr(A fl B) = Pr((F,G) U (G,F)) = ^ 
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Par conséquent, on vérifie que les événements A et fi ne sont pas indépendants puisque : 

1 3 

Pr(Anfi) = - * Pr(A)xPr(fi) = - (5.62) 

2 8 

En revanche, ces deux événements sont indépendants lorsque l’on considère une famille 
avec 3 enfants (nouvelle expérience aléatoire). Dans ce cas, l’univers des possibles comprend 
2 3 = 8 cas possibles. Chaque événement élémentaire a une probabilité égale à 1/8. 


Pr(A) - 1 - Pr({G,G,G) U {F,F,F}) = 1 - ^ - £ = 7 

o o 4 

Pr(fi) = Pr((F,G,G} U [G,F,G) U (G,G,F) U {G,G,G» 
1 1 1 1 1 
_ 8 + 8 + 8 + 8~2 


(5.63) 

(5.64) 

(5.65) 


(5.66) 


La probabilité jointe est égale à : 

Pr(A n B) = Pr({F,G,G} U |G,F,G} U (G,G,F)) 

Dans cette expérience, on vérifie que les événements A et fi sont indépendants puisque : 

(5.67) 


I I 1 

8 + 8 + 8 


3 I 3 

Pr(A n fi) = Pr(A) X Pr(fi) = - x - = - 

4 2 8 


Mais dans la plupart des cas, nous n’avons pas à démontrer que deux événements sont 
indépendants. La configuration de l’expérience aléatoire nous permet généralement 
de postuler l’indépendance, typiquement lorsqu’il y aucun lien de causalité entre les 
réalisations. 

Exemple 

On considère une expérience aléatoire consistant à lancer un dé à 6 faces deux fois de suite. 
L’univers des possibles est £2 = 11,2,3,4,5,6}. Il est clair que les événements « obtenir un 1 
au premier lancer », noté A, et « obtenir un 6 au deuxième », noté fi, sont indépendants par 
construction. 

Pr(A) - ^ Pr(fi) = y (5.68) 

6 6 

La probabilité d’obtenir un 1 au premier lancer et un 6 au deuxième est : 

Pr(A n fi) = Pr(A) x Pr(fi) = - x - = — (5.69) 

6 6 36 
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Plus généralement, on peut définir l’indépendance mutuelle de n événements de la 
façon suivante. 


Soit un univers probabilisé (0,!F, Pr) et n événements (A) ,...,A„) e T n ■ Les évé¬ 
nements A 1 ,...,A„ sont dits mutuellement indépendants si : 

Pr If 2 ] A,:] = P] Pr (A,-) (5.70) 

' 1=1 > (=1 


Si les A|. A„ sont mutuellement indépendants, tout événement A, est indépendant 

des événements Aj pour j + i et de toute union ou intersection de ces événements. 
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2 questions à 

Damien 

Deballon 

Consultant ERS (Enterprise Risk 
Service) chez Deloitte 



Quel est votre parcours professionnel et votre mission 
actuelle au sein du cabinet Deloitte ? 

À l'issue de mon master d'Économétrie et de Statistique 
appliquée obtenu à l'Université d'Orléans, j'ai été embauché 
en 2012 en tant que consultant chez Deloitte, l'un des 
quatre grands cabinets internationaux d'audit et de conseil. 
J'ai intégré la branche ERS (Enterprise Risk Services) et le 
service IT Advisory IS/SP (Industries et Services). Une partie de 
mon activité est consacrée à l'audit en support des missions 
CAC (commissaire aux comptes), notamment aux 
problématiques de détection de fraudes et d'anomalies sur 
le cycle comptable, le cycle achat/vente et le cycle paie. Une 
autre partie de mon activité s'inscrit dans le cadre du 
développement de la partie Data&Analytics au sein de 
Deloitte avec notamment des missions de conseil liées aux 
problématiques Big Data, à la qualité et la gouvernance des 
données. 


En quoi les notions statistiques de probabilité et de 
variable aléatoire sont-elles fondamentales dans le 
cadre de votre activité ? 

Du fait de leur caractère aléatoire, les typologies de fraudes 
peuvent être difficilement identifiables pour une entreprise. 
Ainsi, dans le cadre de nos analyses de fraudes, nous nous 
appuyons sur des notions de probabilités de survenance 
d'événements. Les lois de probabilité apparaissent donc le 
plus souvent comme le résultat d'un processus de 
modélisation ajouté à la création d'indicateurs spécifiques 
pour qualifier la fraude. De plus, la notion de significativité 
des résultats est fondamentale pour tenir compte du fait que 
la modélisation du processus de fraude reste complexe et 
que de nombreux cas, de faux positifs ou faux négatifs 
peuvent nuire à l'interprétation des cas identifiés. ■ 
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Les points clés 

Une expérience aléatoire est une expérience qui peut être répétée dans les mêmes 
conditions et qui ne donne pas forcément le même résultat à chaque répétition. 


L’univers des possibles correspond à l’ensemble de tous les résultats qui peuvent 
être obtenus au cours d’une expérience aléatoire. 


L’ensemble des parties correspond à l’ensemble de tous les événements réali¬ 
sables associés à un univers des possibles. 


Un univers probabilisé est un triplet déterminé par un univers des possibles, une 
tribu et une mesure de probabilité. 


La formule des probabilités totales permet d’exprimer la probabilité d’un événe¬ 
ment en fonction des probabilités conditionnelles des événements d’un système 
complet. 

Le théorème de Bayes ou formule de probabilité des causes permet de caractériser 
la probabilité conditionnelle d’un événement dans un système complet. 


Deux événements sont indépendants si leur probabilité jointe est égale au produit 
de leurs probabilités marginales. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Expérience aléatoire 

a. Une expérience aléatoire est une expérience qui peut 
être répétée plusieurs fois dans les mêmes condi¬ 
tions. 

b. Le résultat d’une expérience aléatoire est un événe¬ 
ment élémentaire. 

c. L’univers des possibles d’une expérience aléatoire 
est l’ensemble des résultats possibles. 

d. L’univers des possibles se compose d’événements 
élémentaires. 

e. L’univers des possibles est infini. 

Evénement 

a. Un événement peut toujours s’exprimer sous la 
forme d’une combinaison (union ou intersection) de 
singletons. 

b. Un événement certain correspond à l’univers des 
possibles. 

c. Deux événements disjoints ont un élément en com¬ 
mun. 

d. L’union d’un événement et son complémentaire cor¬ 
respond à l’univers des possibles. 

e. Un ensemble d’événements comprend toujours l’en¬ 
semble vide. 

Ensemble des parties et tribu 

a. L’ensemble des parties correspond à l’univers des 
possibles. 

b. L’ensemble des parties comprend toujours l’en¬ 
semble vide et l’univers des possibles. 


c. Une tribu appartient nécessairement à l'ensemble 
des parties. 

d. Si un événement appartient à une tribu, son complé¬ 
mentaire appartient aussi à cette tribu. 

e. Si une suite d’événements appartient à une tribu, 
l’intersection de ces événements appartient elle aussi 
à cette tribu. 

Mesure de probabilité 

a. Une mesure de probabilité peut être définie sur un 
univers probabilisé. 

b. Une mesure de probabilité est une application d’une 
tribu vers le segment [0,1]. 

c. Une mesure de probabilité peut être appliquée à l’en¬ 
semble des parties. 

d. Dans le cas d’un univers fini, la somme des probabi¬ 
lités associées aux événements élémentaires est tou¬ 
jours égale à 1. 

e. Soient deux événements A et B tels que B c A, alors 
Pr(A) < Pr(fi). 


Exercices 

Probabilité et dénombrement 

Lors d’un examen, le professeur propose un QCM com¬ 
posé de 4 questions. Pour chaque question, il y a 5 ré¬ 
ponses et l’étudiant doit choisir l’une d’entre elles. On 
admet que pour chaque question, une seule réponse est 
exacte. 

1. Déterminer le nombre de grilles-réponses possibles. 

2. Quelle est la probabilité qu’un étudiant réponde au 
hasard correctement à au moins 2 questions et ob¬ 
tienne ainsi au moins la moyenne sur cet exercice ? 

Probabilité et dénombrement 

Lors d’une loterie, 50 billets sont vendus. Seulement 
2 billets sont gagnants. Si l’on achète 4 billets, quelle 
est la probabilité de gagner au moins un lot ? 
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Chapitre 5 Probabilités 


Suite d'événements et probabilité totale 

Un fumeur décide d’arrêter. On suppose que si cette per¬ 
sonne n’a pas fumé le jour n, alors la probabilité qu’elle 
fume le jour suivant est égale à 0,1. Mais si cette per¬ 
sonne fume le jour n, sa probabilité de fumer le jour sui¬ 
vant est égale à 0,8. 

1. Exprimer la probabilité que cette personne fume le 
jour n + 1 en fonction de la probabilité qu’elle fume 
le jour n. 

2. Déterminer la limite de cette probabilité avec n. Est- 
ce que cette personne va s’arrêter de fumer ? 

8 Probabilité et indépendance 

Une entreprise vend deux produits A et B. Sur sa zone de 
chalandise (population), la probabilité d’achat du pro¬ 
duit A est égale à p A et la probabilité d’achat du pro¬ 
duit B est égale à p H . On suppose que les décisions 
d’achat des deux produits sont indépendantes. 

1. Pour un individu de la population, quelle est la pro¬ 
babilité d’achat des deux produits ? 

2. Pour un individu de la population, quelle est la pro¬ 
babilité d’achat de l’un ou de l’autre produit? 

Probabilité et dénombrement 

Une urne contient N = 100 boules dont N B = 75 boules 
blanches et N R = 25 boules rouges. On fait n = 50 ti¬ 
rages avec remise dans l’urne. 


1. Soit l’événement E k « on tire k boules rouges » avec 
0 < k < n. De façon générale, montrez que la proba¬ 
bilité Pr (E k ) est égale à : 


Pr (£*) = C* 



(5.71) 


2. Montrez que la probabilité de tirer k = 10 boules 
rouges est égale à 9,85 %. 


10 Probabilité conditionnelle 

Une entreprise reçoit un lot de pièces détachées qui peut 
comporter un certain nombre de pièces défectueuses. En 
présence de pièces défectueuses, le lot est dit défectueux 


et il est rejeté. On admet que la probabilité qu’une pièce 
soit défectueuse est égale à 5 %. Afin de décider si l’on 
doit ou non accepter un lot, l’entreprise met en place une 
procédure de détection. Les résultats de cette procédure 
montrent que si le lot est défectueux, le test conduit au 
rejet du lot avec une probabilité de 98 %. Lorsque le lot 
est effectivement non défectueux, le test conduit (à tort) 
au rejet du lot avec une probabilité de 4 %. 

1. Quelle est la probabilité qu’un lot soit effectivement 
défectueux si le test conduit au rejet du lot ? 

2. Quelle est la probabilité qu’un lot soit valide si le test 
conduit au rejet du lot ? 

3. Quelle est la probabilité qu’un lot soit défectueux si 
le test ne conduit pas au rejet du lot ? 

4. Quelle est la probabilité qu’un lot soit valide si le test 
ne conduit pas au rejet du lot ? 

11 Probabilité conditionnelle 

Dans une classe, on distingue deux types d’étudiants sui¬ 
vant leur filière d’origine. Les étudiants ayant suivi la 
filière A ont une probabilité de 30 % d’obtenir une men¬ 
tion bien à leur examen, tandis que ceux issus de la fi¬ 
lière B ont une probabilité de 20 %. La probabilité qu’un 
étudiant pris au hasard soit issu de la filière A est égale 
à 70 %. Quelle est la probabilité qu’un étudiant ayant 
obtenu une mention bien soit issu de la formation A ? 

12 Probabilité conditionnelle 

On considère un individu qui se rend régulièrement au 
cinéma. Soit A, l’événement « l’individu se rend au ci¬ 
néma le jour i » avec Pr(A i ) = p\ donné. On suppose 
que si un jour cet individu se rend au cinéma, le jour sui¬ 
vant il a une probabilité de 1/8 de s’y rendre aussi. Si 
l’individu ne se rend pas au cinéma le jour i, il y a une 
probabilité de 3/8 qu’il s’y rende le jour suivant. 

1. Exprimer Pr (A„ +1 ) en fonction de Pr (A„). 

2. Quelle est la probabilité de l’événement « l’individu 
se rend au cinéma le jour i » ? 
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Chapitre 



L a mise en œuvre de la notion de probabilité dans la 
vie économique passe par l'utilisation de variables 
aléatoires. Par exemple, si une banque cherche à 
modéliser le risque de défaut associé à un prêt consenti à 
l’un de ses clients, elle représente généralement ce risque 
par une variable binaire prenant la modalité 1 si le client 
connaît un défaut de paiement et 0 sinon. Bien évidem¬ 
ment, cette variable est une variable aléatoire puisque le 
défaut d’un client n’est pas connu à l’avance. Ainsi, une 
variable aléatoire n’est rien d’autre qu’une application 
mesurable, c’est-à-dire une sorte de « fonction », d’un 
univers probabilisé vers un univers des réalisations proba- 
bilisables. Aux événements issus de l’expérience aléatoire 
(défaut ou non défaut), on associe des réalisations ( l ou 0) 
de la variable aléatoire. 


Le fait que cette application soit mesurable implique 
que l’on peut affecter des probabilités à toutes les réali¬ 
sations et donc qu’il est possible de caractériser la loi de 
probabilité (ou distribution) de la variable aléatoire. Par 
exemple, la variable « défaut » peut être associée à une 
loi de Bernoulli. On distingue les variables aléatoires dis¬ 
crètes des variables aléatoires continues. Mais, quel que 
soit le type de variable considéré, la loi de probabilité peut 
être toujours représentée de trois façons équivalentes : 

(i) par sa fonction de densité ou sa fonction de niasse 

suivant les cas ; 

(ii) par sa fonction de répartition ; 

(iii) par la population de ses moments. 


LES GRANDS 

AUTEURS 



Cari Friedrich Gauss (1777-1855) 

Cari Friedrich Gauss est un mathématicien allemand qui fut à l'origine de contri¬ 
butions majeures non seulement en mathématiques, mais aussi en astronomie et en 
physique. Dans le domaine des statistiques, il établit les bases de ce que l'on appellera 
plus tard la loi normale, dite loi de Gauss ou de Laplace-Gauss. 

Dans un ouvrage publié en 1809 et consacré au mouvement des corps célestes, il 
introduisit la procédure d'estimation des moindres carrés (► chapitre 2) qui est au¬ 
jourd'hui sans conteste la méthode d'estimation la plus utilisée. Afin de prouver les 
bonnes propriétés de cette méthode d'estimation, il dut supposer que les erreurs de 
mesure étaient distribuées selon une loi particulière, continue, symétrique et d'espé¬ 
rance nulle. C'est ainsi qu'apparut la fameuse loi normale... ■ 
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■ Variable 
B/ aléatoire 


Plan 

il Définition générale. 134 

O Variables aléatoires discrètes. 136 

Fl Variables aléatoires continues 152 

Fl Comparaison des variables continues et discrètes . 165 

H Couples et vecteurs de variables aléatoires. 167 


Pré-requis 

Connaître la notion de probabilité ( chapitre 5). 

Connaître les bases du calcul intégral. 

Connaître les notions de base du calcul matriciel. 

O bj ect ifs _ 

Définir la notion de variable aléatoire discrète ou continue. 

Introduire la notion de loi de probabilité. 

Connaître la signification d'une fonction de densité ou d'une fonction de masse. 
Savoir utiliser une fonction de répartition et un quantité. 

Définir la notion de moments. 

Introduire les notions de loi conditionnelle et de loi jointe. 

Définir la notion d'indépendance statistique. 
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Partie 2 Probabilités et variable aléatoire 


D Définition générale 

On considère une expérience aléatoire et l’on désigne par £2 l’univers des résultats 
possibles (► chapitre 5). 

Définition 6.1 

Soient (O,"F, Pr) un univers probabilisé et (X (O) ,8) un univers probabilisable. 
On appelle variable aléatoire toute application mesurable , notée X, de £2 vers 
X (£2) : 

Vref X~‘ (x) € 8 (6.1) 

Cette définition théorique peut sembler aride, mais elle est en fait très simple à com¬ 
prendre. Une variable aléatoire est une application , c’est-à-dire une sorte de « fonc¬ 
tion », qui pour chaque événement de l’univers des possibles O associe une valeur 
appartenant à un univers X (£2). Plus généralement, l’application X associe à tout évé¬ 
nement de la tribu F sur £2, une valeur appartenant à la tribu 8 sur X (O). Cette valeur 
peut être numérique (on parle alors de variable aléatoire quantitative) ou non numé¬ 
rique (on parle alors de variable aléatoire qualitative). 

6 élinilteJL&2 

On appelle réalisations, les valeurs prises par la variable aléatoire X. L’univers 
X(£2) correspond à l’univers des réalisations. 

Exemple 

On considère l’expérience aléatoire qui consiste à lancer un dé à 6 faces. L’univers des ré¬ 
sultats possibles est alors défini par £2 = {1,2,3,4,5,6). Définissons une variable aléatoire, 
notée X, comme une application qui prend la réalisation 10 lorsque le résultat du lancer est 
un nombre pair et 20 lorsque le résultat est un nombre impair. La variable aléatoire X est 
dite quantitative. Si la variable aléatoire X prend les réalisations « pair » ou « impair », cette 
variable est dite qualitative. Dans les deux cas, on a défini une application associant à tout 
événement de £2, un élément de l’univers des réalisations X(£2) = {10,20} dans le cas de 
la variable aléatoire quantitative et X (£2) = {« pair »,« impair »} dans le cas de la variable 
aléatoire qualitative. 

Ainsi, la variable aléatoire X est une sorte de fonction qui « transforme » les résultats 
d’une expérience aléatoire définis sur £2 en des réalisations définies sur X (£2). Mais 
le point essentiel c’est que l’on est capable de déterminer les probabilités associées à 
ces réalisations. En effet, si (£2,F, Pr) est un univers probabilisé cela signifie que l’on 
peut attribuer une probabilité à tout événement de la tribu F. Dit autrement, on est 
capable d’attribuer une probabilité non seulement aux événements élémentaires de £2, 
mais aussi à tous les événements combinés (union, intersection, etc.) appartenant à la 
tribu F (► chapitre 5). Par conséquent, si pour chaque événement de £2, on associe via 
la variable aléatoire X, une réalisation de cette variable dans X (£2), il est aussi possible 
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1 De façon générale en mathématiques, une application est une relation entre deux ensembles pour la¬ 
quelle chaque élément du premier (ensemble de départ) est relié à un unique élément du second (ensemble 
d'arrivée). Celte notion est légèrement différente de la notion de fonction. 
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de calculer les probabilités associées à ces réalisations. Plus précisément, il est non 
seulement possible de déterminer une probabilité pour chaque réalisation élémentaire 
de X appartenant à l’univers X (Q), mais aussi pour toutes les combinaisons possibles 
de ces réalisations (union, intersection, etc.) appartenant à la tribu £. On peut donc 
définir une mesure de probabilité sur l’univers probabilisable (X (Q), £). 

Exemple 

On considère l’expérience aléatoire qui consiste à lancer un dé à 3 faces. L’univers des résul¬ 
tats possibles est alors défini par O = j 1,2,3}. Une tribu sur £2 est donnée par l’ensemble des 
parties 'P (Q) : 

T = P{£2) = {{1}, {2}, 13}, (1 U 2}, (1 U 3}, {2 U 3}, (1 U2U 3} ,0} (6.2) 

Définissons une variable aléatoire X comme une application qui prend la valeur « pair » 
lorsque le résultat du lancer est un nombre pair et « impair » dans le cas contraire. L’uni¬ 
vers des réalisations de X est défini par X (£2) = {« pair »,« impair »}. Une tribu sur X (£2) est 
donnée par l’ensemble des parties P(X (£2)) : 

E> = r P(X {£2)) = |{« pair »}, {« impair »}, {« pair » U « impair »} ,0} (6.3) 

Si le dé est équilibré, tous les événements de l’univers £2 sont équiprobables, Pr({1}) = 
Pr({2}) = Pr((3}) = 1/3 et l’on connait les probabilités associées à tous les événements 
de la tribu T sur O. Ces probabilités sont représentées dans le tableau 6.1. 


▼ Tableau 6.1 Probabilités pour un lancer de dé à trois faces 


Événement 

Probabilité 

Événement Probabilité | 

Ay =11} 

*2 = (2} 

A 3 = 13} 

A a = (1 U 2} 

Pr(A,)= 1/3 

Pr (A 2 ) = 1/3 
Prfi4 3 )= 1/3 

Pr (A a ) = 2/3 

/4 5 = (1u3} Pr (^ 5 ) = 2/3 

A 6 = {2 u 3} Pr (As) = 2/3 

0 = {1u2u3} Pr (£2) = 1 

0 Pr( 0 ) = O 

On peut alors en déduire une probabilité pour tous les événements de la tribu £ sur l’univers 
X (£2) des réalisations de la variable aléatoire X (► tableau 6.2). 

T Tableau 6.2 Probabilités associées aux réalisations 

Réalisation de X 

Probabilité j 

E i = 

e 2 = { 

E 3 = (l« pair 

{« pair »} 

« impair »} 

»} u |« impair »}} 

0 

Pr(£ 1 ) = Pr(A 2 ) = 1/3 

Pr (f 2 ) = Pr (/Ai u A 3 ) = 2/3 

Pr (Es) = 1 

Pr( 0 ) = 0 


Mais pour que cette intuition soit valide, il faut que la variable aléatoire soit définie 
comme une application mesurable. Qu’est-ce qu’une application mesurable? 


135 







Copyright © 2015 Dunod. 


Partie 2 Probabilités et variable aléatoire 


ËéfmiîiâiL&uâ 

Considérons deux univers A et B munis de leurs tribus respectives LA et B. On dit 
que l'application f de A vers B est mesurable si l’image réciproque par / de tout 
événement de la tribu B (tribu de l’univers d’arrivée) est incluse dans la tribu LA 
(tribu de l’univers de départ) : 

\/b € B f~' (b) e LA (6.4) 


Ainsi une variable aléatoire X est une application mesurable si (i) pour chaque évé¬ 
nement de la tribu £ définie sur l’univers des réalisations X (ü.) on peut, en inversant 
le sens de l’application X, « remonter» à un événement sur O, et (ii) cet événement 
appartient à la tribu T définie sur Q. C’est le sens de l’équation (6.1 ) de la définition 
générale d’une variable aléatoire. On peut vérifier que c’est le cas dans notre exemple 
de lancer de dé à trois faces (► tableaux 6.1 et 6.2). Pourquoi est-ce si important de 
« remonter» à un événement qui appartienne à la tribu T sur O? Tout simplement 
parce que ces événements sont probabilisés. Si à toute réalisation ou combinaison de 
réalisations correspond un événement sur T, on peut lui associer une probabilité. Par 
conséquent, si X est une application mesurable, il est possible d’affecter une probabi¬ 
lité à toutes les réalisations de X (O) et à toutes les combinaisons de ces réalisations 
appartenant à £. 

Ces probabilités définissent la loi de probabilité (ou distribution ou loi) de la va¬ 
riable X. On distingue deux types de variables aléatoires suivant que l’univers des 
réalisations X (Q.) est dénombrable (fini ou infini) ou non dénombrable (infini) : 

- les variables aléatoires discrètes ; 

- les variables aléatoires continues. 



Variables aléatoires discrètes 


Une variable aléatoire discrète est une variable aléatoire qui peut prendre des réa¬ 
lisations discrètes, c’est-à-dire non continues. Plus formellement, la définition d’une 
variable aléatoire discrète est la suivante. 

Soit (£2,!F, Pr) un univers probabilisé fini ou infini dénombrable. On appelle va¬ 
riable aléatoire discrète X toute application mesurable X : Q —> X (Q) telle que 
Vx, e X (O) : 

Pr (X = x/) = Pr {{lo e Q ; X (ùj) = x,}) (6.5) 


Le terme Pr (X = x,) se lit comme « la probabilité que la variable aléatoire X prenne 
la réalisation x,- ». 

Remarque : Par convention, on note la variable aléatoire avec une lettre majuscule 
(par exemple X) et sa réalisation avec une lettre minuscule (par exemple x). 
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Cette définition indique tout simplement que la probabilité que la variable X prenne la 
valeur x, correspond à la probabilité de l’union de tous les événements co de l’univers 
des résultats fi qui correspondent à la valeur x; dans l’univers des réalisations X (fi). 
Dit autrement, l’application mesurable X permet de déterminer les probabilités asso¬ 
ciées aux réalisations x-, e X (fi). Notons qu’en général la tribu T sur fi correspond à 
l’ensemble des parties V (fi). 

Remarque : Dans la suite de ce chapitre, nous supposerons que la variable aléa¬ 
toire est toujours quantitative , c’est-à-dire que ses réalisations x\ . x n ,... sont des 

nombres. En effet, dans le cas d’une variable qualitative (par exemple qui prend des 
réalisations du type « bleu », « blanc », « rouge »), il est toujours possible par un co¬ 
dage de se ramener à une variable quantitative (par exemple en posant 1 pour « bleu », 
2 pour « blanc » et 3 pour « rouge »). De plus, pour simplifier les notations, nous sup¬ 
poserons que les réalisations x, sont ordonnées suivant l’indice i : 

X] < X 2 < ... < x„ < x n+ \ < ... (6.6) 

WH Loi de probabilité 

On caractérise une variable aléatoire discrète par sa loi de probabilité (ou loi de dis¬ 
tribution). 

BMmiianJLS 

L’application Pr (X = x,) définie pour toutes les réalisations x, 6 X (O) s’appelle 
la loi de probabilité de la variable discrète X. Puisque les réalisations x, forment 

un système complet : v—, 

2^ Pr (X = = 1 (6.7) 

XjeXttl) 
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La loi de probabilité d’une variable discrète n’est rien d’autre que la « liste » des pro¬ 
babilités Pr(X = X|), PrÇf = xa),..., Pr(X = x„).associées à tous les évènements 

de l’univers des réalisations X(fï). Par définition, la somme de ces probabilités pour 
toutes les réalisations de l’univers X(f2) est toujours égale à 1. Si le nombre de réa¬ 
lisations, noté n, appartenant à l’univers X(fi) = jxi,...,x„) est fini, l’équation (6.7) 
peut se réécrire sous la forme : n 

Ÿ J Pr(X = x i )=\ (6.8) 

i=i 

Si en revanche, l’univers des réalisations X (fi) est infini dénombrable, l’équation (6.7) 
devient : n 

lim V Pr(X = x,) = 1 (6.9) 

n —»oo J 

/=1 

Remarque : L’univers des réalisations X(Q) est aussi appelé support de la loi de 
probabilité de X. 

La loi de probabilité de la variable aléatoire X peut être caractérisée par la liste des pro¬ 
babilités Pr (X = x,-) pour toutes les réalisations x, € X (fi). Bien évidemment lorsque 
le support de la loi de X est de grande dimension (finie) ou de dimension infinie, une 
telle représentation n’est plus possible en pratique. On utilise alors la fonction de 
masse associée à la loi de probabilité. 
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Définition 6.6 

La fonction de niasse (pmbability mass function ou pmf en anglais) est la 
fonction, notée fx (x,), qui à toute réalisation x, e X (Q) associe la probabilité 
Pr(X = x,) : 

fx U) = Pr (X = xd V;q € X (Q) (6.10) 


Par convention, on note la fonction de masse par une lettre en minuscule et l’on indique 
le « nom » de la variable aléatoire en indice avec une lettre majuscule. Considérons 
deux exemples de lois de probabilité. La première correspond à une variable aléatoire 
admettant un univers fini de réalisations, tandis que dans le cas de la seconde, cet 
univers est infini mais dénombrable. 


Exemple 

On considère une variable aléatoire discrète Y ayant pour support Y (£2) — (0,1,...,n} et 
distribuée selon une loi binomiale (► focus : les lois usuelles), notée B ( n,p ). Sa fonction de 
masse est donnée par la formule suivante : 


fr ( y>) = P r(L = yù = O» x/'x(l- pf-«> iij, e Y (O) 
où p est un paramètre tel que /? e [0,1] et Cf est la combinaison de //, parmi n : 


C !l ' = ( n ) =-—- 

" \ l Ji) {/,! x (n - iji)\ 


( 6 . 11 ) 


( 6 . 12 ) 


où ! désigne la factorielle. Si l’on pose par exemple p = 0,5 et n = 2, l’univers des réalisations 
devient Y (Q) = (0,1,2} et la fonction de masse s’écrit : 

2 ! 


friy,) = Pr(L = iji) = - 

iji\ X (2-{/,)! 

Les probabilités associées sont égales à : 

/k( 0) = Pr(F = 0) 


x 0,5^'X 0,5- w Vi/;6(0,1,2} 


2 ! 


0 ! x 2! 


x 0,5° x0,5 2 = 0,25 


(6.13) 


(6.14) 


/ K ( 1) = Pr(y = 1) = x0,5' x0,5' = 0,50 (6.15) 

fr(2) = PrlY = 2)= x0,5 2 x0,5° = 0,25 (6.16) 

2 

On vérifie que ^ Pr(F - i) - 1. La loi de la variable aléatoire peut être représentée soit par 

i=0 

le triplet de probabilités Pr(L = 0), Pr (Y = 1) et Pr (Y = 2), soit par l’équation (6.13) de la 
fonction de masse. Les deux représentations sont équivalentes. 


Exemple 

On considère une variable aléatoire discrète Z ayant pour univers des réalisations Y (Z) = N, 
l’ensemble des entiers naturels (0,l,2,...l. Cet univers est de taille infinie, mais il est dénom¬ 
brable. On admet que la variable Z suit une de loi de Poisson de paramètre A > 0 (► focus : 
les lois usuelles) telle que : 

fz(z) - Pr(Z - z) - exp(-A) x Vz e N (6.17) 

z! 

Si l’on pose A = 1, la fonction de masse devient : 

f z (z) = Pr(Z = z)= eKP( ~ l> Vze N (6.18) 

Zi 
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On peut calculer les probabilités associées comme suit : 

/z( 0) = Pr(Z = 0) = eX ^Qi~ ' } = exp(-l) 

/zd) = Pi(Z = 1) = LXP | < ! l} = exp(-l) 

exp(-l) exp(-l) 
2 ! _ 2 


/z (2) = Pr(Z = 2) = 


(6.19) 

( 6 . 20 ) 
( 6 . 21 ) 


et ainsi de suite pour toutes les valeurs de z appartenant à N. Cette fonction de masse évaluée 
pour les réalisations allant de 0 à 10 est représentée sur la figure 6.1 . Dans ce cas, on ne peut 
pas représenter la loi de probabilité de Z par les valeurs des probabilités Pr (Z = 0), Pr (Z = 1 ), 
Pr(Z = 2)puisqu’il y en a une infinité. On représente donc cette loi de probabilité par sa 
fonction de masse (équation (6.18)). 



▲ Figure 6.1 Fonction de masse de la loi de Poisson de paramètre À = 1 

Dans ces deux exemples, la fonction de masse dépend d’un ou de plusieurs para¬ 
mètres : les paramètres n et p dans le cas de la loi binomiale (premier exemple) et le 
paramètre A dans le cas de la loi de Poisson (deuxième exemple). Ces lois de probabi¬ 
lité sont dites paramétriques. 

Une loi de probabilité paramétrique est associée à une fonction de masse qui 
dépend d’un ou de plusieurs paramètres, notés 0. On note alors cette fonction de 
masse sous les formes équivalentes suivantes : 

fx (x) = f x (x; 6) = Pr (X = x) = Pr (X = x; 6) (6.22) 

où le signe = signifie « équivalent à ». 
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FOCUS 

Les lois de probabilité usuelles 


Certaines lois de probabilité ont des propriétés 
particulières et sont, pour cela, très souvent em¬ 
ployées pour modéliser certains phénomènes de 
la vie quotidienne ou de la vie économique. Du 
fait de leur utilisation fréquente, on les qualifie 
de lois (de probabilité) usuelles. Ces lois pos¬ 
sèdent des noms, par exemple loi binomiale , loi 
de Poisson, loi géométrique, loi binomiale néga¬ 
tive, etc. Ce sont souvent des lois paramétriques. 
Par exemple, la fonction de masse associée à une 
loi de Poisson dépend d’un paramètre réel positif 
noté A. La fonction de masse d’une loi binomiale 
dépend de deux paramètres, souvent notés n et p, 
tels que n > 0 et p e [0,1 ]. 

Ces lois usuelles sont représentées par des sym¬ 
boles, qui souvent sont des raccourcis de leur nom 


et font apparaître les paramètres de leur fonc¬ 
tion de masse. Par exemple, la loi binomiale est 
notée S(n,p), la loi de Poisson est notée 'P (A), 
etc. Lorsque l’on veut mentionner qu’une variable 
aléatoire X est distribuée selon une loi usuelle on 
utilise ce symbole abrégé, précédé du signe ~ qui 
signifie «est distribué selon ». Ainsi, l’expression 
X ~ P (A) signifie que la variable aléatoire X est 
distribuée selon une loi de Poisson de paramètre 
A. Dit autrement, la loi de probabilité de X est une 
loi de Poisson de paramètre A. On dit aussi que 
la variable aléatoire X suit une loi de Poisson de 
paramètre A. Ces trois phrases sont équivalentes 
(► chapitre 7). 


2.2 


Fonction de répartition et quantile 


La loi de probabilité d’une variable aléatoire discrète peut aussi être caractérisée par 
sa fonction de répartition . Quel que soit le type de variable aléatoire (discrète ou 
continue), la fonction de répartition est toujours définie de la façon suivante. 


La fonction de répartition de la variable aléatoire X , notée Fx(x), correspond 
à la probabilité que cette variable prenne des réalisations inférieures ou égales à 
une certaine valeur x e R : 


Fx(x) = Pr(X < x) VxeR 


(6.23) 


La fonction de répartition (cumulative distribution function ou cdf, en anglais) est tou¬ 
jours notée avec une lettre majuscule, par exemple Fx (x), par opposition à la fonction 
de masse, notée avec une lettre minuscule (par exemple fx (x)). 

Remarque : La fonction de répartition, contrairement à la fonction de masse, est 
définie pour toute valeur réelle x et pas uniquement sur les valeurs des réalisa¬ 
tions appartenant à X (Q). Par exemple, si le support de la variable aléatoire X est 
X (fi) = {0,1,2), on peut calculer F* (1,57) = PrQf < 1,57), Fx (4) = Pr(X < 4) ou 
même Fx (-3,1 ) = Pr (X < -3,1 ). C’ est pourquoi cette définition de la fonction de ré¬ 
partition est valable tant pour les variables aléatoires discrètes, que pour les variables 
aléatoires continues (► section 3). 
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La quantité Pr (X < x) est appelée probabilité cumulée, car elle correspond au cumul 
(c’est-à-dire à la somme dans le cas des variables discrètes) de toutes les probabilités 
associées à des réalisations x e X (Q) inférieures ou égales à x. 

Définition 6.9 

La fonction de répartition d’une variable aléatoire discrète X définie sur le sup¬ 
port X (Q) est une fonction Fx (x) : R —» [0,1J telle que : 

Fx (x) = Pr (X < x) = ^ Pr (X = x,) Vxel (6.24) 

Xj€X(Q), Xj<x 


Dans le cas d’une variable aléatoire discrète, la fonction de répartition est une fonction 
croissante des valeurs de x qui se présente en forme de fonction en escalier. 


Exemple 


On considère une variable aléatoire discrète Y distribuée selon une loi binomiale S(2,0,5) 
ayant pour support Y (Q) = {0,1,2} et de fonction de masse : 

f Y ( y,) = Pr(T = y,) = -- x 0,5" x O^ 2 " 1 " Vy, e {0,1,2} (6.25) 

iji- x (2 - iji)\ 

Rappelons que Pr(T = 0) = 0,25, Pr(T = I) = 0,5 et Pr(T = 2) = 0,25. Déterminons sa 
fonction de répartition Fy (y), Vy 6 R. Pour cela, considérons plusieurs cas : 

■ Si y < 0, alors Fy (y) = Pr(7 < y) = 0 puisqu’il n’existe pas de réalisation de y strictement 
inférieure à 0. 


■ Si 0 < y < 1, alors Fy (y) = Pr (Y < y) = Pr(L = 0) = 0,25 puisque 0 est la seule valeur 
entre 0 (inclus) et 1 (exclu) pour laquelle une probabilité existe. Toutes les autres valeurs 
correspondent à des événements impossibles (probabilité nulle). 

■ Si 1 < y < 2, alors Fy (y) = Pr (Y <y) = Pr(T = 0) + Pr(T = 1) = 0,75. 


■ Si y >2, alors Fy {y) = Pr(F < y) = Pr(T = 0) + Pr(T = l) + Pr(L = 2)= 1. 


Par conséquent, la fonction de répartition de la variable Y est définie par Vi/ e R : 


Fy (y) = 


0 si y < 0 

0,25 si 0 < y < 1 

0,75 si 1 < y < 2 

1 si y > 2 


(6.26) 


Cette fonction de répartition est représentée sur la figure 6.2. Il convient de noter que cette 
fonction en escalier est discontinue pour les valeurs 0, 1 et 2. 


1 

0.9 


3 0,6 

1 0,5 

1 0.4 

o 0,3 
^ 0,2 
0,1 
0 

-2-10 1 2 3 4 

y 


▲ Figure 6.2 Fonction de répartition de la loi binomiale S(2,0.5) 
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Emsdité 

Fonction de répartition 

Pour toute variable aléatoire X (discrète ou continue), la fonction de répartition 
Fx (a) vérifie toujours les propriétés suivantes : 

1. 0 < F* (a) < 1, VxeR. 

2. lim Fx (a) : 0. 

A—> —OO 

3. lim Fx (a) = 1 . 

X—>+oo 


La première propriété signifie que la fonction de répartition en tant que probabilité cu¬ 
mulée, est nécessairement comprise entre [0,1 J. La seconde propriété signifie que la 
probabilité cumulée que les réalisations de X soient plus petites qu’une valeur tendant 
vers -oo, est nécessairement égale à 0, i.e. Fx (-oo) = Pr (X < -oo) = 0. L’événement 
X < -oo est en effet un événement impossible. Parallèlement, la probabilité cumulée 
que les réalisations de X soient plus petites qu’une valeur tendant vers +oo, est néces¬ 
sairement égale à 1 : Fx (+oo) = Pr (X < +oo) = 1. Dit autrement, l’événement X < oo 
est un événement certain. 

Remarque : La fonction de répartition permet de calculer la probabilité que la variable 
aléatoire X appartienne à un intervalle [a,b] où (a,b) € R 2 avec b > a. 

Pr (a < X < b) = Pr (X < b) - Pr (X < a) = F x (b) - F x (a) (6.27) 

Nous avons vu que la fonction de répartition est une fonction qui pour toute valeur a g 
R associe la probabilité cumulative F x (a) = Pr(X < a). 11 est possible « d’inverser» 4 
cette fonction de répartition afin de déterminer la valeur de a qui correspond à une 
certaine probabilité cumulative a = Pr(X < a), avec a e [0,1], On parle alors de 

fonction de répartition inverse ou de quantité d’ordre a. 

Définition 6.10 

Le quantité d’ordre a de la loi de probabilité de X, noté F x ] (a), est la plus petite 
réalisation appartenant à X (O) associée à une probabilité cumulée supérieure ou 
égale à a : 

F x (Fj^ 1 (a)) = Pr(x < Fÿ 1 (a)) > a Ver €[0,1] (6.28) 


Par construction, un quantile d’une loi de distribution discrète appartient à l’univers 
des réalisations X (Q) : c’est une réalisation de la variable X. Le quantile d’ordre a peut 
être noté F x ] (a) ou Q a . L’interprétation d’un quantile est la suivante. Si le quantile 
d’ordre a = 0,05 est égal à Fÿ' (0,05) = 2, cela signifie qu’il y a 5 % de chances 
que les réalisations de la variable aléatoire discrète X soient inférieures ou égales à 2. 
Reprenons l’exemple précédent. 

Exemple 

On considère une variable aléatoire discrète Y distribuée selon une loi binomiale r £(n,p) 
avec n = 2 et p = 0,5, ayant pour support Y (Q.) = |0,1,2). Sa fonction de répartition F y (y) 
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propre. 
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est définie par l’équation (6.26). Déterminons les quantités d’ordre a = 0,14 et a = 0,75 
associés à la loi de probabilité de Y. Notons a - Fÿ 1 (0,14), le quantile d’ordre a = 0,14. 
Ce quantile correspond à la plus petite réalisation de Y (c’est-à-dire soit 0, 1 ou 2) telle que 
la probabilité cumulée Pr(F < a) soit égale ou supérieure à 0,14. On vérifie sur la figure 6.3 
que cette réalisation est égale à 0, i.e. Fÿ 1 (0,14) = 0. De la même façon, on vérifie que le 
quantile d’ordre a = 0,75 est égal à 1, i.e. Fÿ 1 (0,75) = I. 



y 


▲ Figure 6.3 Quantiles d'ordres a = 0,14 et a = 0,75 de la loi binomiale S (2,0,5) 


Remarque : Le quantile d’ordre a = 0,5 de la loi de probabilité est appelé la médiane, 
il est peut être noté sous différentes formes équivalentes, i.e. Qi = Qo.5 = Z 7 *' (0,5). 
Les quantiles à 25 % et 75 % sont respectivement notés Q\ et Q\. La distance Qs - Q\ 
est appelée écart interquartile ou interquartile. Cet écart est une mesure de la disper¬ 
sion (► chapitre 1 ) des réalisations de la variable aléatoire. 


o 

c 

ri 

û 


o •§ 
CM i. 


© 


en 


>- 

CL 

O 

U 


WE1 Moments d'une variable aléatoire discrète 

Une loi de probabilité discrète peut être caractérisée de façon équivalente par sa fonc¬ 
tion de masse ou par sa fonction de répartition. Il existe une troisième façon de donner 
la même information : on utilise pour cela les moments . Les moments sont des in¬ 
dicateurs de dispersion de la loi de probabilité. Ainsi, il est possible de définir une 
loi de probabilité à partir de la population de ses moments, c’est-à-dire à partir de 
l’ensemble des moments qui peuvent être associés à cette distribution. 

On distingue les moments ordinaires (ou moments non centrés) des moments cen¬ 
trés. La définition générale des moments (ou intégrale de Riemann-Stieltjes), appli¬ 
cable tant dans le cas d’une variable aléatoire discrète que dans le cas d’une variable 
aléatoire continue, est la suivante (► définition 6.1 1). 


5 II convient de distinguer les moments (théoriques) associés à une variable aléatoire, des moments empi¬ 
riques (► chapitre 1 ) associés à un échantillon ou une population. 
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EN PRATIQUE 

Les logiciels de statistique et d'économétrie 


Dans la plupart des logiciels d’économétrie et 
de statistique, il existe des fonctions préprogram¬ 
mées qui permettent d’obtenir les valeurs de la 
fonction de masse, de la fonction de répartition 
et les quantiles de la plupart des distributions 
usuelles. 

Par exemple dans le logiciel Matlab (éditeur Ma¬ 
th Works), ces fonctions s’écrivent toujours sous la 
même forme : une abréviation du nom de la loi 
(par exemple bino pour la loi binomiale) suivie 
d’un acronyme précisant le type de fonction. 
L’acronyme cdf renvoie à la fonction de répar¬ 
tition (pour cumulative distribution function). 


inv (pour inverse) au fractile, pdf (pour probabi- 
lity density function) à la fonction de densité ou à 
la fonction de masse, etc. 

Sur la figure 6.4 est reproduite une copie de l’aide 
(en anglais) de la fonction binoinv qui correspond 
à la fonction permettant de calculer le fractile 
d’une loi binomiale B(n,p). On trouve en outre 
sur cette figure un exemple d’appel de la fonction 
binoinv utilisée pour déterminer le fractile d’ordre 
« = 0,14 d’une loi binomiale B (2; 0,5) comme 
dans le cas de notre exemple. On retrouve bien sûr 
le résultat Fÿ 1 (0,14) = 0. 


» help binoinv 

BINOINV Inverse of the binomial cumulative distribution function (cdf). 
X = BINOINV(y,N,Pï returns the inverse of the binomial cdf vith 
parameters N and P. Since the binomial distribution is 
discrète, BINOINV returns the least integer X such that 
the binomial cdf evaluated at X, equals or exceeds T. 


The size of X is the common size of the input arguments. A scalar input 
functions as a constant matrix of the same size as the other inputs. 


Note that x takes the values 0,1,2,...,N. 


See also binocdf . binofit . binopdf . binornd . blnostat . icdf . 

Reference page in Help browser 
doc binoinv. 


» binoinv(0.14,2,0.5) 
ans = 

0 

▲ Figure 6.4 Exemple d'utilisation de la fonction binoinv sous Matlab 


PÉfinitiqn&ll 

Le moment ordinaire (non centré) d’ordre k e N de la loi de probabilité de X 
est défini par : 

X +oo 

/dFx (x) (6.29) 

oo 

Le moment centré d’ordre k e N de la loi de probabilité de X est défini par : 

X +OO 

(jc-E (X)) k dF x (x) (6.30) 

oo 

où Fx (.) désigne la fonction de répartition de la loi de X. 
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L’expression E (X) se prononce « espérance de X ». La suite (w/t)teN caractérise la 
population des moments ordinaires, c’est-à-dire l’ensemble des moments ordinaires 
mo,m\,m 2 ,...,mk,..., que l’on peut définir à partir de la loi de la variable X. De 
même, la suite (jJk)keN caractérise la population des moments centrés. On peut montrer 
que connaître la population des moments ordinaires (m^teN ou des moments centrés 
(fik)ke n est équivalent à connaître la loi de probabilité de la variable X. Par définition : 

m 0 = E(l) = 1 jio = E(l)=l H\ = E(X-E(X)) = 0 (6.31) 

puisque E (X - E (X)) = E (X) - E (X) = 0. 

Dans le cas d’une variable aléatoire discrète, les moments peuvent s’exprimer en 
fonction de la fonction de masse. 

^niîiacLêJa 

Soit X une variable aléatoire discrète caractérisée par une fonction de masse 

fx (x) = Pr (X = x), Vx e X (Q) où X (Q) = {xj.x„ ) est un univers de dimension 

finie. Le moment ordinaire d’ordre k 6 N de la loi de probabilité de X est défini 
par : 

n 

= J]x?Pr (X = x,) (6.32) 

i=l 

Le moment centré d’ordre k e N de la loi de probabilité de X est défini par : 

n 

Hk = E ((X - E (X))*) = Yj (*; - E QOŸ Pr (X = Xi) (6.33) 

;=i 
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Exemple 

On considère une variable aléatoire discrète Y admettant une distribution de BemouiUi de 
paramètre p e [0,1], Le support de cette distribution Y (Q) = {0,1} est fini et sa fonction de 


masse est définie par : 

fy (y) = Pr(F = i/) = (1 - p) x ~ y Viji e {0,1} (6.34) 

Déterminons les trois premiers moments ordinaires associés à la loi de probabilité de Y. Nous 
savons que m 0 = eIl 0 ) = 1. Pour les ordres suivants, il vient : 

i 

mj =B(Y) = Y ix fy(0 (6.35) 

(=0 

= 0 x p° x ( 1 - p) 1 + 1 x p' x ( 1 - p)° = p (6.36) 

î 

m 2 = E (P 2 ) = Y‘ 2 x fr (0 (6-37) 

1=0 

= 0 2 x p° x (1 - pŸ + l 2 x p' x (I - p)° - p (6.38) 
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Remarque : Dans le cas où l’univers des réalisations X (Q) est un univers infini, mais 
dénombrable, tel que X (Q) = (xi ,...,x„,...}, les définitions des moments ordinaires et 
centrés deviennent : 

n 

m k = E(x k ) = lim V x* Pr(X = x ( ) (6.39) 

' ' n— »oo / i 

i=\ 
n 

p k = E ((X - E (X)f) = lim V (xi - E (X)Ÿ Pr (X = x.) (6.40) 

' ' /Z—>oo / i 

i— 1 


Exemple 


On considère une variable aléatoire discrète Z admettant une distribution géométrique de 
paramètre p e ]0,1 ], notée Q(p), telle que Z (<1) = N*. Sa fonction de masse est définie par : 

fz (z«) = Pr (Z = Z;) = (1 - pf‘~' p Vz,- e {1,2,...(6.41) 
Dans ce cas, l’univers de résultats Z (fl) est infini dénombrable. Déterminons les trois 
premiers moments ordinaires associés à la loi de probabilité de Z. Nous savons que 
/«o = E (Z (l ) = 1. Pour les ordres suivants, il vient : 


m i 


E(Z)= limÿ/xU -pr' 

n—*ce Z— À 


1 

x p — — 

P 


(6.42) 


? — 

m 2 = E(Z 2 ) = lim y i 2 x ( 1 - pt' xp = - (6.43) 

' ' n—*oo Z—À pZ 

i=1 r 

Pour retrouver ces résultats, il convient d’appliquer la notion de série entière à (1 — p) et 
d’utiliser l’identité géométrique. 


Remarque : Pour certaines lois de probabilité, certains moments ordinaires ou centrés 
n ’existent pas. On dit que le moment ordinaire d’ordre k n ’existe pas lorsque : 

X +oo 

|x*| clFg (x) = +oo (6.44) 

oo 

L’exemple précédent nous a montré que, dans le cas d’une loi à support infini, le calcul 
des moments fait généralement appel à la résolution de suites. Une façon plus simple 
de retrouver les moments consiste à utiliser la fonction génératrice des moments. 


PéiinilüaD-5CL3 


La fonction génératrice des moments d'une variable aléatoire X , telle que E(X) 
existe, est définie par : 


X +OO 

exp (tx)dFx(x) Vt e R (6.45) 

OO 


De cette définition générale, valable pour tout type de variable (discrète ou continue), 
nous pouvons déduire une définition spécifique aux variables discrètes. 

PMnj-tioji_6,-14 

Soit X une variable aléatoire discrète définie sur un univers fini 
X(D) = {xi,...,x„}, sa fonction génératrice des moments est égale à : 

n 

Mx ( t) = E (exp ( tX )) = y exp (fx,) Pr (X = x,) (6.46) 

/=! 
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Quel est le lien entre la fonction génératrice des moments et les moments ordinaires 
( m k)ke N ? 0° P eut: montrer que la fonction génératrice des moments peut toujours se 
réécrire sous la forme d’un développement en séries entières tel que : 


t 2 m 2 t’niT. 

M x (t) = I + tm | + — rr~ H — rr—H 


2! 3! 

En dérivant cette fonction par rapport à t, on obtient : 


M'x ( t ) = 


BM X ( t ) 

dt 


— m \ + tm 2 + 


tm-i 


(6.47) 


(6.48) 


Si l’on souhaite obtenir le moment ordinaire d’ordre 1, il suffit d’évaluer l’expression 
de cette dérivée en t = 0, on obtient immédiatement M' x (0) = ni\. Si l’on souhaite ob¬ 
tenir le moment d’ordre 2, il convient alors de dériver deux fois la fonction génératrice 
et d’évaluer cette dérivée seconde en 0, i.e. M' x (0) = m 2 , et ainsi de suite. 


Propriété 

Fonction génératrice des moments 

Si le moment ordinaire d’ordre k £ N de la variable X existe, il correspond à la 
dérivée k eme de la fonction génératrice des moments évaluée au point t = 0. 


m k = 


d k M x (t) 


dt k 


t= 0 


(6.49) 


Le signe d correspond à la notion de dérivée partielle. L’expression â k f(x)/dx k , avec 
un exposant k sur le signe d au numérateur et un exposant k sur la variable de dérivation 
x au dénominateur, correspond donc à la dérivée k e ' ne de la fonction / (x). La barre 
verticale signifie « évaluée en ». Ainsi, d k f (x)/dx k \ Xo correspond à la dérivée k eme de 
la fonction / (x) évaluée au point xq. 


Exemple 


On considère une variable aléatoire discrète Z admettant une distribution géométrique de 
paramètre p e ]0,1], notée Q ( p ), telle que Z (kl) = N*. On admet que sa fonction génératrice 
des moments est définie par : 

M z (t)=-^— (6.50) 

I - qe' 

avec q - 1 - p. Déterminons les moments ordinaires d’ordres 1 et 2 associés à la loi de 
probabilité de Z. Commençons par dériver la fonction génératrice des moments : 


dMz ( t ) pe' 

d 2 Mz 

(■t ) 

pe' ( 1 + 2q — 2 (q + q 2 ) e ' + q 2 e 2 '^j 

dt “ (1 -qe') 2 

dt 2 


0 - qe'Ÿ 

Dès lors, il vient : 




ni] = E (Z) = 

dM x U) 


<5 

o 

1 

1 

dt 

/=0 

(1 -qe 0 ) 2 (1-(1 -p)?~ P 

m 2 = E (Z 2 ) = 

d 2 M x (t) 


pe° ( 1 + 2q - 2 [q + qe° + q 2 e °j 

dt 2 

/=0 

m 

c 

1 


p (l + 2q - 2 [q + q 2 ) + q 2 ) 2 - p 

d -qŸ " 


On vérifie que l’on retrouve les expressions de m\ et m 2 obtenues précédemment. 


(6.51) 


(6.52) 

(6.53) 

(6.54) 
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WP1 Moments remarquables 

Certains des moments sont si importants que l’on leur a attribué un nom spécifique : 
espérance , variance, etc. Ces sont les moments remarquables. 


2.4.1 1 Espérance 

L’espérance, notée E(X) ou E (X), correspond au moment ordinaire d’ordre un, Le. 
ni]. Ce moment donne une idée de la «moyenne» 1 des réalisations de la variable 
aléatoire X que l’on peut obtenir si l’on effectue plusieurs tirages de cette variable. 
Plus précisément, l’espérance est définie comme la somme pondérée des réalisations 
dans laquelle les pondérations sont déterminées par les probabilités associées. 

Définition 6.15 

L’espérance d’une variable aléatoire discrète X définie sur un support fini 
X(Q) = {xi,...,x„} est égale à : 

11 

E(X) = £x,- Pr (X = xd (6.55) 

i= 1 


Dans le cas d’un support X (fi) infini dénombrable, cette définition devient : 

n 

E(X) = lim ^ Xi Pr(X = je,-) (6.56) 

n—>oo l—l 
i=l 

Exemple 

On considère une variable aléatoire Y définie sur Y (fi) = {0,2,4,6} telle que sa loi de proba¬ 
bilité est caractérisée par les probabilités du tableau 6.3. 

▼ Tableau 6.3 Probabilités associées à la variable Y 


Réalisation de Y 

Probabilité 

Y = 0 

TJ 

—t 

II 

O 

II 

O 

CM 

II 

S- 

Pr(y = 2) = 0,3 

Y = 4 

Pr(y = 4) = 0,4 

Y = 6 

Son espérance est égale à : 

Pr(y = 6) = 0,2 


E(K) = ^ l M Pr ( p = tji) = 0 x 0,1 +2 x 0,3 +4 x 0,4 + 6 x 0,2 = 3,4 (6.57) 


i=i 


Cela signifie qu’en « moyenne » les réalisations obtenues pour plusieurs tirages dans la loi de 
probabilité de cette variable seront égales à 3,4. 
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6 II ne faut surtout pas confondre les concepts île moyenne empirique (►chapitre I) et d’espérance. 
Comme nous le verrons dans le chapitre 9 consacré à l'estimation, la moyenne empirique est une variable 
aléatoire (un estimateur) alors que l'espérance est une constante. 











Chapitre 6 Variable aléatoire 


Exemple 

On considère une variable aléatoire discrète Z distribuée selon une loi uniforme discrète 

sur Z (fl) = |1. n). Sa fonction de masse reflète la propriété d ’équiprobabilité de cette 

distribution : 

fz (z) = Pr (Z = z) = - Vï e Z (fl) (6.58) 

n 

L’espérance de la variable Z est égale à : 


n 

B (Z) = Yji Pr (Z = i) 

i=l 


1 v-i 1 n(n + I) 

- > i = - x —-- 

n Z-j n 2 

f=l 


n + 1 
2 


(6.59) 
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Souvent dans la pratique, on est amené à exprimer une variable aléatoire en fonc¬ 
tion d’une autre. Par exemple, on s’intéresse à la variable F définie par Y = X 2 ou 
F = 2 + 3X. Comment déterminer l’espérance d’une transformée ou d’une fonction 
de la variable X sans nécessairement connaître sa loi de probabilité ? On utilise pour 
ce faire la propriété suivante, valable tant pour les variables aléatoires discrètes que 
pour les variables aléatoires continues. 

Propriété 

Espérance d'une fonction de variable aléatoire 

Soit X une variable aléatoire discrète définie sur un support X (fl) = {x],...,x n } fini 

n 

et soit g(.) une fonction telle que ^ \g(xf)\ Pr(X = x,) < oo. L’espérance de la 

1=1 

variable aléatoire g (X) est alors définie par : 

n 

E (g (X)) = ^9 (*i) Pr (X = Xi ) (6.60) 

;= i 

Dans le cas d’une transformation linéaire g (X) = a + bX, cette propriété illustre le fait 
que l’espérance est un opérateur linéaire puisque l’on a E (g (X)) = g (E (X)). 

Propriété 

Linéarité de l'espérance 

Soit X une variable aléatoire et soient deux constantes (a,b) e R 2 , alors 
E (a + bX) = a + bE (X). On dit que l’espérance est un opérateur linéaire. 

Mais attention, il est important de noter que le résultat selon lequel E(g(X)) 
= g (E (X)) n’est valable que dans le cas où la fonction g (.) est linéaire. 

Emortéîs 

Espérance de fonction non-linéaire 

Soit X une variable aléatoire et soit g (.) une fonction non-linéaire, alors : 

E(g(X))tg(E(X)) 

Exemple 

On considère une variable aléatoire Y telle que E(F) = 3. Puisque l’espérance est un opéra¬ 
teur linéaire E (2 - 4F) = 2-4E(F) = -10. En revanche E^F 2 ) t E(F) 2 et E(l/F) £ 1/E (F) 
car les fonctions g (x) = x 2 et g (x) = 1/x ne sont pas des fonctions linéaires. 
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Partie 2 Probabilités et variable aléatoire 


2.4.2 


Variance 


La variance est un indicateur de la dispersion de la loi de probabilité autour de l’es¬ 
pérance. La définition générale de la variance (cas des variables aléatoires continues 
ou discrètes) est la suivante. 


Soit X une vari 
par : 


able aléatoire telle que E (X 2 ) existe. La variance de X est définie 


¥ (X) = E ((X - E (X)) 2 ) 


(6.61) 


La variance correspond au moment centré d’ordre 2, i.e. pi- Elle peut être interprétée 
comme la « moyenne » des réalisations en écart à l'espérance E(X) : plus la variance 
est élevée, plus les réalisations de la variable X auront de grandes chances d’être éloi¬ 
gnées de la valeur de l’espérance. 

En développant l’expression de la variance, il vient : 

¥(X) = E(x 2 -2XE(X) + E(X) 2 ) (6.62) 

Puisque les quantités E (X) et E(X) 2 sont des constantes et que l’espérance est un 
opérateur linéaire, cette expression peut se réécrire comme : 

¥ (X) = E (X 2 ) - 2E (X) 2 + E (X) 2 = E (x 2 ) - E (X) 2 (6.63) 

EmfinéîÊ 

Formule de Kônig-Huygens 

Si E(X 2 ) existe, la variance ¥(X) peut toujours se réécrire sous la forme suivante, 
dite formule de Konig-Huygens : 

¥(X) = E(X 2 ) - E(X) 2 (6.64) 


Cette expression se lit comme « l’espérance de la variable X 2 moins le carré de l’es¬ 
pérance de la variable X ». 

Dans le cas d’une variable aléatoire discrète , la variance peut être définie à partir de 
sa fonction de masse fx (x) = Pr (X = x). 

Béfifliiiim&lZ 

Soit X une variable aléatoire discrète définie sur X(Q) = {xi. x n }. Si E(X 2 ) 

existe, sa variance est : 

n 

¥ (X) = ^ (xi - E (X)) 2 Pr (X - xi) (6.65) 

i=i 


En développant l’expression de la variance de l'équation (6.65), on montre que celle-ci 
peut se réécrire de façon équivalente sous les formes suivantes : 


' (X) = Ÿj P A ~ E W 2 = Ÿj P‘*i ~ Ÿj P‘ x i 


( 6 . 66 ) 


i=i 


. /=! 
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7 On ne doit pas confondre la variance d'une variable aléatoire, notée V (X), et la variance empirique d'un 
échantillon, notée V (X) (► chapitre 1 ). 









Chapitre 6 Variable aléatoire 


avec pi = Pr (X = x,). Dans le cas d’un univers X (O) infini dénombrable, ces défini¬ 
tions deviennent : 

n n i n \2 

Y(X) = lim y 7 pixj -E(X) 2 = lim V* pixf - lim V" p,x, 

n —>oo / J n—>oo £ J n—>oo / J 


(6.67) 


1=1 


i=l 


i=1 


Exemple 

On considère une variable aléatoire Y définie sur Y (Q) = {0,2,4,61 telle que sa loi de pro¬ 
babilité est caractérisée par les probabilités du tableau 6.3. Nous avons vu que son espérance 
était égale à E(K) = 3,4. Sa variance est égale à : 


On obtient alors : 


V (Z) = £(//,•-E(X)) 2 Pr (Y = ij:) 


Y (Y) = (0 - 3,4) 2 x 0,1 + (2 - 3,4) 2 x 0,3 

+ (4 - 3,4) 2 x 0,4 + (6 - 3,4) 2 x 0,2 = 3,24 


( 6 . 68 ) 


(6.69) 

On peut vérifier que les 3 formules des équations (6.65) et (6.66) donnent la même valeur de 
la variance. 

Exemple 

On considère une variable aléatoire discrète Z distribuée selon une loi uniforme discrète sur 
Z (O) = {Itelle que /z(z) = Pr(Z = z) = l/n. Nous savons que l’espérance de la 
variable Z est égale à E(Z) = ( n + l)/2. On admet que son moment ordinaire d’ordre deux 
est égal à : 

E(Z>) = £,- ! Pr(Z = i)=i£/ ! = 6 

/=! i=1 

D’après la formule de Kônig-Huygens, la variance est égale à : 

_ 2 2 n 2 + 3n + 1 (n + \ Y rr — 1 

¥ (Z) = E (z 2 ) - E (Z) 2 =---— =~^~ 


2 n 2 +3n+l 


(6.70) 
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De la même façon que pour l’espérance, nous pouvons déterminer la variance d’une 
fonction de la variable aléatoire X, sans nécessairement connaître la loi de probabilité 
de cette variable transformée. Mais contrairement à l’espérance, qui est un opérateur 
linéaire, la variance est un opérateur quadratique. 

. Propriété 

Non-linéarité de la variance 

Soit X une variable aléatoire et soient deux constantes (a,b) e R 2 , alors 
V (a + bX) = b 2 Y (X). 

Cette propriété signifie que le fait de déplacer simplement une loi de probabilité (en 
ajoutant a) ne modifie pas sa variance. Par contre, changer l’échelle (multiplier par b) 
modifie la variance. Dans ce cas, la déformation de la variance est quadratique (mul¬ 
tipliée par h 2 ). 

Exemple 

On considère une variable aléatoire Y telle que V (Y) = 2. Puisque la variance est un opérateur 
quadratique, V (2 - 4P) = 16V (Z) = 32. 

Une mesure de dispersion équivalente à la variance est donnée par l’écart-type. 
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Partie 2 Probabilités et variable aléatoire 


Définition 6.18 

L’écart-type, noté crx, correspond à la racine carrée de la variance, Le. 
crl=Y (X). 



Variables aléatoires continues 


On considère à présent le cas où le support (ou univers des réalisations) X (Q) de 
la loi de probabilité de la variable aléatoire X est non dénombrable (► chapitre 5). 
On dit alors que la variable aléatoire est continue. C’est le cas notamment de toutes 
les variables aléatoires réelles (v.a.r. en abrégé) pour lesquelles X (fl) = R ou X (fl) 
correspond à une partie de l’ensemble des réels R, par exemple X (fl) = ]-oo,a] ou 
X (Q) = [a,b] avec (a,b) € R 2 . La définition formelle d’une variable aléatoire réelle 
(continue) est la suivante. 

PéfinitiQn6J9 

Soit (fl.'F, Pr) un univers probabilisé non dénombrable. On appelle variable 
aléatoire réelle (continue) X toute application mesurable X : fl —» X (fl) ç R 
telle que pour tout intervalle I C X (fl) : 

Pr (X e I) = Pr ({a> e fl ; X(a») e /)) (6.71) 


Le symbole ç, utilisé pour les ensembles, signifie « inclus ou équivalent à ». Cette dé¬ 
finition signifie que la probabilité que la variable X appartienne à un certain intervalle 
de réalisations I c X(fl) (par exemple l’intervalle [-2,3]) correspond à la somme 
des probabilités associées à tous les événements tu de l’univers fl qui correspondent à 
des réalisations X (io) qui appartiennent elles-mêmes à l’intervalle /. Ainsi, l’applica¬ 
tion mesurable X permet de déterminer les probabilités associées à des intervalles de 
réalisations. 


3.1 


Fonction de densité 


Dans le cas d’une variable aléatoire réelle (continue), on ne peut déterminer que la 
probabilité associée à des intervalles de réalisations. En effet, comme nous l’avons 
vu dans le chapitre 5, pour une variable aléatoire continue, la probabilité d’être en 
un point est nulle. On dit qu’il n’y a pas de masse ponctuelle dans la densité. Par 
conséquent, le concept de fonction de masse n 'existe pas pour les variables aléatoires 
continues. 


Pro-Rrjété 

Variable aléatoire continue 

La probabilité associée à une réalisation particulière d’une variable aléatoire conti¬ 
nue est nulle : 

Pr (X = x) = 0 VjreX(Q) (6.72) 
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8 On trouve aussi parfois la définition équivalente V/ 6 X(fi), X 1 (/) = (tu e il : X(tu) e /) 6 T. qui 
correspond à la définition d'une application mesurable. 












Chapitre 6 Variable aléatoire 


Dès lors, comment représenter la loi de probabilité (ou distribution) d'une variable 
aléatoire continue ? On utilise pour cela le concept de fonction de densité (probability 
density function ou pdf en anglais). 

Afin de comprendre l’intuition d'une fonction de densité, imaginons une variable 
aléatoire X à valeurs sur R admettant une loi de probabilité continue. Supposons 
que l’on effectue un très grand nombre de tirages dans cette loi de probabilité, par 
exemple 1 million. À partir de ce million de réalisations on construit un histogramme 
(► chapitre 1) comme celui représenté sur la figure 6.5. Rappelons que pour chaque 
classe (intervalle) de valeurs sur R, Thistogramme indique la fréquence des réalisa¬ 
tions appartenant à cette classe, c’est-à-dire le nombre de réalisations appartenant à 
cette classe divisé par le nombre total de réalisations. 

Imaginons maintenant une fonction hypothétique qui, pour toutes les valeurs admis¬ 
sibles des réalisations (axe des abscisses), renverrait la valeur du sommet de classe 
de Thistogramme auquel appartient cette réalisation (axe des ordonnées), c’est-à-dire 
la fréquence d’observation de cette classe. Pour un nombre de classes fini cette fonc¬ 
tion serait discontinue, sous forme de plateaux ou d’escaliers. Comme l’illustre la 
figure 6.5, la fonction de densité peut être interprétée comme cette fonction qui relie¬ 
rait les sommets de Thistogramme, dans le cas impossible où le nombre de classes de 
Thistogramme tendrait vers l’infini ou de façon équivalente, lorsque l’amplitude des 
classes tendrait vers 0. 
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▲ Figure 6.5 Interprétation de la fonction de densité 


BfiüDiiiaiiJb2fl 

Soit X une variable aléatoire réelle définie sur le support X (Q) ç R. La loi de 
probabilité de X admet une fonction de densité, notée fx (a), si cette fonction est 
définie sur X (X2), positive ou nulle, intégrable et telle que V (a,b) e X (Q) 2 : 

Pr (a<X<b)= ! fx (x) dx (6.73) 

J Cl 


9 Ce cas est impossible car si le nombre de classes de l’histogramme tend vers l’infini, la fréquence de 
chaque classe tend nécessairement vers 0 pour un nombre de tirages donné. 

10 Pour rappel, on dit qu'une fonction est intégrable si cette fonction peut être intégrée et que son intégrale 
est égale à une quantité finie. 
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La convention de notation pour la fonction de densité est la même que pour la fonction 
de masse. La fonction de densité est notée avec une lettre minuscule avec en indice 
le nom de la variable aléatoire (notée en majuscule). La figure 6.6 illustre le concept 
de fonction de densité. Une fonction de densité fx (x) est une fonction positive ou 
nulle, définie sur X (H) ç R (axe des abscisses) telle que pour tout couple de valeurs 
(a,b) e X (fl) 2 , la probabilité que les réalisations de X appartiennent à l’intervalle 
[a,b] correspond à Y aire sous la densité entre ces deux bornes. Rappelons que cette 

r h 

aire représente l’intégrale I fx (x) clx. 



A Figure 6.6 Illustration de la définition de la fonction de densité 

Remarque : Puisque la probabilité d’être en un point est nulle, la définition de la 
densité peut se réécrire de façon équivalente sous les formes suivantes : 

Pr(a<X<b) = Pr(a<X<b) = Pr(a<X<b) = f f x (x)dx (6.74) 

J II 

Dans le tableau 6.4 sont reportés quelques exemples de fonctions de densité associées 
à des lois continues usuelles (► focus : les lois usuelles). 


▼ Tableau 6.4 Exemples de fonctions de densité 


Nom de la loi 

Fonction de densité 

Paramètres 

Support j 

Uniforme (continue) 

d-C 

(d,c) e R 2 

X (Q) = [c,d] 

Exponentielle 

fx (x) = À exp (-àx) 

À > 0 

X (O) = R + 

Normale 

Mx) %Æ exp h( /)) 

/j e R, cr > 0 

il 

a 

>< 

Normale standard 

Mx)= Æ exp h) 

aucun 

X (O) = R 


Remarque : On constate que la plupart de ces fonctions de densité dépendent d’un 
ou de plusieurs paramètres. Comme pour les variables discrètes, ces densités corres¬ 
pondent à des lois (continues) paramétriques, pour lesquelles la fonction de densité 
peut être notée fx (x; 0) où 0 désigne l’ensemble des paramètres. 
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Exemple 

On suppose que la note Y d’un étudiant à son examen de statistique a été attribuée au hasard. 
Formellement, ceci revient à supposer que la variable Y définie sur Y (Q) = [0,20] admet une 
loi uniforme (continue) telle que : 

/r(l/)= i Vr/ e [0,20] (6.75) 


Déterminons la probabilité d’obtenir une note comprise entre 8 et 13, ainsi que la probabilité 
d’obtenir une note supérieure à 15. Par définition, il vient : 

i' 3 13 8 1 


Pr(8 <Y< 13) 


f 


fx (x) dx : 


f 1 

X 

—dx = 


J 8 20 

20 


8 


20 20 


(6.76) 


Si la note a été attribuée au hasard, on vérifie qu’il y a 1 chance sur 4 d’obtenir une notre 
comprise entre 8 et 13. De la même façon : 

-20 

I I X /\l 11 I 

(6.77) 

Remarquons que dans ce cas la borne supérieure de l’intégrale est égale à 20, puisque la 
fonction de densité n’est définie que sur le support Y (£2) = [0,20] de la loi de Y. 


r 20 1 

X 

20 

20 

15 _ 1 

I —dx = 


= 



J 15 20 

20 

15 

20 

20 ~ 4 


Afin de simplifier les notations, on supposera que la fonction de densité « est définie 
en dehors du support de la loi de X » et qu’elle prend alors une valeur nulle : 

/*(*) = 0 'ixiX(Q) (6.78) 


Par exemple, la densité de la loi uniforme définie sur X (O) = [c,d] devient : 

/ l/(d - c) Vx G [c,d] 

/xW= 0 sinon 


(6.79) 


L’avantage de cette écriture c’est que dans le cas où le support de la loi de X est une 
partie de l’ensemble R, i.e. X (12) c R, nous pouvons toujours écrire les probabilités 
d’être « supérieur » ou « inférieur» à une certaine valeur avec des +oo sur les bornes 
de l’intégrale. Par exemple, si X (Q) = [0,20], il vient : 

s*+oo 20 r*+oo /"*20 

Pr(X>15)= I fx(x)dx= I fx(x)dx+ I 0 dx = I f x (x)dx (6.80) 
Jl5 J15 J 20 Jl5 

Par conséquent, en posant fx (x) = 0, Vx g X (£2), nous pouvons adopter des notations 
identiques (avec des +oo ou des -oo sur les bornes des intégrales) pour définir les 
probabilités dans le cas où X (£2) = R et dans le cas où X (£2) c R. 


Ergmé.ts 

Fonction de densité 

Soit X une variable aléatoire réelle continue avec X (£2) ç R. Sa fonction de densité 
fx (x) vérifie les propriétés suivantes : 


1. fx (x) > 0, Vx G X (£2) et f x (x) = 0, Vx i X(£2). 


r 

J 

— O 


fx (*) dx = 1. 


3. Pr(X >a) = Pr(X > 


r 

a) = J 

J a 


fx (x) dx. 


4. Pr(X < b) = Pr(X < b) = fx(x)dx. 
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La première propriété signifie que la densité est toujours positive ou nulle sur le sup¬ 
port de la loi de X, et nulle en dehors de ce support. La seconde propriété signifie que 
lorsque l’on intègre une fonction de densité sur son support X (Q), cette intégrale est 
nécessairement égale à 1. En effet, par définition une réalisation appartient toujours 
à l’univers des réalisations. Par conséquent l’événement x e X (O) est certain et sa 
probabilité est égale à 1 : 

fx (x) dx+ I 0 dx = 

JxiX(n) 

Remarque : Une densité n’est pas une probabilité . Une fonction de densité peut être 
supérieure à 1 pour certaines valeurs de x e X (Q). 


Pr(xeX(Q)) = f 

JxeX(Cl) 


X +O 

oo 


fx (x) dx = I (6.81) 


Exemple 

On suppose que la variable aléatoire réelle Z e R est distribuée selon une loi normale d’es¬ 
pérance /u = 0 et de variance égale à cr 2 = 0,01 telle que : 

I 


fz(z) 


: exp 


(-£) - 


cr'fhr 

Cette fonction de densité évaluée au point z - 0 est supérieure à 1 puisque : 


fz (0) = 


exp(0) 


10 


0,1 X V2w V2 n 


= 3,9894 


(6.82) 


(6.83) 


3.2 


Fonction de répartition et quantile 


La loi de probabilité d’une variable aléatoire continue peut aussi être caractérisée par 

sa fonction de répartition. 


Définition 6.21 


La fonction de répartition, notée Fx (x), de la variable aléatoire réelle X définie 
sur X (Q.) ç R correspond à la probabilité que cette variable soit inférieure où 
égale à une certaine valeur x e R : 


Fx (x) = Pr (X < x) = 



fx (u) du 


Vx e R 


(6.84) 


On remarque que la fonction de répartition d’une variable réelle est définie pour toute 
valeur de R et pas uniquement pour des valeurs appartenant au support X (O), y com¬ 
pris lorsque ce support n’est qu’une partie de R (► section 2.2). 


Exemple 

On considère une variable aléatoire réelle Y distribuée selon une loi continue uniforme sur 
Y (O) = \c,d\ avec d > c, de densité : 

1/ (d - c ) Sij 6 [c,d] 

0 sinon 


fy (y) = 


(6.85) 


Déterminons sa fonction de répartition. Par définition, Vy e [e,d] : 


X l J r* ry 

fy (u) du = I 0 du + I 

oo —oo C 


fy (u) du 


f 


fy (u) du - 


u f ij-c 


d-c\c d-c 


( 6 . 86 ) 

(6.87) 
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Pour une valeur y > d, on a : 


Fy (y) 


-r 

—oa 


fy (il) du 


Or, par définition de la fonction de densité, 
la même façon, pour toute valeur y < c, on a : 


= r o du + r /, 

J-oo kJ c 

-r 


f Y (u) du + 


r-r 


/y («) t/i< (6.88) 


fy(u)du = 1. Ainsi Vf/ > d, Fy(y) = 1. De 


X u r'j 

f Y (u)dii = I 

co J —oc 


0 du = 0 


(6.89) 


Par conséquent, la fonction de répartition de la variable Y est définie pour toute valeur y e ' 
par : 

I ) 

si y < c 

Vf/ 6 [c,d] (6.90) 


Fy (y) 


0 

y-c 


d — c 


si y > d 

Par exemple si la variable est définie sur Y (fi) = [2,4], on obtient F y (ij) = (y — 2)/2 si 
y € [2,4], On peut alors calculer la probabilité que les réalisations de la variable Y soient 
inférieures à 3 comme Pr ( Y <3 ) = Fy (3) = 1/2, mais aussi la probabilité que les réalisations 
de la variable Y soient inférieures à 30 (valeur n’appartenant pas au support de la loi de F), 
puisque Pr(F < 30) = Fy (30) = 1. 

Remarque : Dans la majorité des cas, on se contente d’exprimer la fonction de répar¬ 
tition sur le support de la loi X (Q) ç R. 


Exemple 

On considère une variable aléatoire réelle Z à valeurs sur Z (Q) = 
loi exponentielle de paramètre A > 0 : 

/lexp(-zd) VzeR + 


fz (z) 




0 sinon 

Déterminons sa fonction de répartition. Par définition, Vz e R + : 


et distribuée selon une 


(6.91) 


F z (z) = J' fz (u) du = f fz (“) du 


Dès lors, il vient : 

F z (z) 


r 


A exp (-uA)du = A 


exp (—uA) 


1 - exp(-zd) 


La fonction de répartition de la variable Z est définie par : 

F z (z) = I - exp (-Z/1) Vz 6 R + 


(6.92) 


(6.93) 


(6.94) 


Dans les deux exemples précédents, nous sommes parvenus à obtenir une forme ana¬ 
lytique (une « formule ») de la fonction de répartition en intégrant la fonction de den¬ 
sité. Mais ce n’est pas toujours le cas. Pour de nombreuses lois continues usuelles 
(loi normale, loi du khi-deux, loi de Student, loi de Fisher-Snedecor, etc.), il est im¬ 
possible d’exprimer la primitive de la fonction de densité avec des fonctions simples 
(logarithme, puissance, exponentielle, etc.). 

Remarque : Même s’il n’existe pas d’expression analytique pour la fonction de 
répartition, on peut toutefois l’approximer par des méthodes numériques. Pour toute 
valeur x e X (fi), on détermine alors numériquement la valeur de F x (x) sans avoir de 
formule générale pour cette fonction. 
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Exemple 

La fonction de densité, notée <p (x), d’une loi normale centrée réduite , notée N (0,1 ), est 
définie par : 

4>{x) = fx(x) - —= exp|-yj VxeR (6.95) 

La fonction de répartition correspondante, notée 0 (x), n’a pas de forme analytique. 

0(x) = J' <p(u)du = £ = ? (6-96) 

Toutefois, il est possible de déterminer numériquement la valeur de 0 ( x ) : pour cela on utilise 
soit des algorithmes d’approximation numérique d’intégrales (implémentés dans la plupart 
des logiciels mathématiques), soit des tables de loi (► chapitre 7). La figure 6.7 représente les 
fonctions de densité (graphique du haut) et de répartition (graphique du bas) de la loi normale 
centrée réduite obtenues à partir du logiciel Matlab. Ces fonctions sont représentées pour des 
valeurs de x allant de -5 à 5. Si l’on considère une valeur quelconque c sur cet intervalle, la 
valeur de la fonction de répartition 0 (c) correspond à la probabilité Pr (X < c). Par définition, 
cette probabilité est égale à l’aire sous la fonction de densité située à gauche de x = c. 




A Figure 6.7 Fonction de répartition de la loi normale centrée réduite 

Comme dans le cas de ces trois exemples, la fonction de répartition vérifie toujours 
les propriétés présentées dans la section 2.2 : 

1. Fx (x) est croissante avec x : dFx (x) /dx > 0, Vx e R. 

2. 0 < F x (x) < 1, Vx € R. 

3. lim F x (x) = 0. 

X —>—oo 

4. lim Fx (x) = 1. 

JC—*+00 

Le résultat selon lequel la fonction de répartition Fx (x) est croissante avec x, tient au 
fait que sa dérivée première correspond à la densité (positive ou nulle par définition). 
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Propriété 

Fonction de densité 

Par construction, la fonction de densité correspond à la dérivée première de la fonc¬ 
tion de répartition : 

BFv (x) 

fx(x)=^r~ 1 VxeR (6.97) 

ox 

Tout comme dans le cas des variables discrètes, il est possible « d’inverser » la fonction 
de répartition afin de déterminer la valeur de x qui correspond à une certaine probabi¬ 
lité cumulée a = Pr (X < x), avec a e [0, 1 ]. On obtient alors la fonction de répartition 
inverse ou le quantile d’ordre a. La définition du quantile est légèrement différente de 
celle présentée dans le cadre des variables discrètes (► section 2.2). 

Définition 6.22 

Si X est une variable aléatoire réelle, le quantile d’ordre a de sa loi de probabi¬ 
lité, noté F x l (a-), est la réalisation appartenant à X (O) c R correspondant à une 
probabilité cumulée égale à a : 

Pr (X < F x l (ad) = F x (f x ' (a)) = a Va € [0,1 ] (6.98) 
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Tout comme pour le cas des variables discrètes, il convient de noter qu’un quantile 
est une réalisation. Par conséquent, un quantile appartient au support X (£2) et il n’est 
pas nécessairement défini sur R si X (£2) est une partie de R. Par exemple, dans le cas 
d’une loi uniforme continue sur le support [2,3] le quantile d’ordre a = 0 est égal 
à 2 et le quantile d’ordre a = 1 est égal à 3. Pour cette loi, tous les quantiles d’ordre 
a e [0,1] appartiennent au support [2,3]. 

Exemple 

On considère une variable aléatoire réelle Z à valeurs sur Z (£2) = R + et distribuée selon une 
loi exponentielle de paramètre A = 2, admettant une fonction de répartition définie par : 

F z (z) = I - exp (-zà) Vz e R + (6.99) 

Posons a = F\ (z) et inversons la fonction F x (z). Il vient : 

F - z 1 (a) = z = — ln ( ' ~ <r) Va e [0,1] (6.100) 

A 

Notons que Va € [0,1], F% (a) e Z(£2) = R + . Par exemple, le quantile d’ordre a = 5 % est 
égal à 0,0256 puisque : 

F z ' (0,05) = - ln ( 1 ~ °' 05) = 0,0256 (6.101) 

Le quantile F z ] (0,05) s’interprète de la façon suivante : il y a 5 % de chances que les réali¬ 
sations de la variable aléatoire Z soient inférieures ou égales au seuil F z (0,05) = 0,0256, 
Le. Pr(Z < 0,0256) = 5 %. 


Remarque : Pour toutes les lois pour lesquelles il n’existe pas d’expression analy¬ 
tique de la fonction de répartition, il n’existe pas non plus d’expression analytique des 
quantiles. Ceux-ci sont alors approximés par des méthodes numériques. 
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Exemple 

On considère une variable aléatoire réelle Y e R distribuée selon une loi normale centrée 
réduite N( 0,1). Sa fonction de densité, notée et sa fonction de répartition, notée 
0 (x), sont représentées sur la figure 6.8. Rappelons que la fonction de densité est définie par 
<p(x) - (l/2;r)~ l/2 exp(-.r 2 /2), mais que la fonction de répartition n’a pas d’expression analy¬ 
tique. Par définition, le quantile à a = 30 % peut être obtenu à partir de la fonction de réparti¬ 
tion (graphique du haut de la figure 6.8). C’est la valeur de x telle que <t>(x) = 0,30. En utili¬ 
sant une table de loi ou un logiciel de statistique, on peut montrer que 1 (0,30) = -0,5244. 
Ce quantile peut aussi être obtenu à partir de la fonction de densité (graphique du bas de la 
figure 6.8). On cherche alors la valeur de x (axe des abscisses) telle que l’aire sous la fonc¬ 
tion de densité située à gauche de x soit précisément égale à 30 %. Rappelons que cette aire 
représente la probabilité Pr(X < x) = 0{x). On retrouve naturellement la même valeur du 
quantile, à savoir 0“'(O,3O) = -0,5244. 



X 


▲ Figure 6.8 Fonction de répartition et quantile de la loi N (0,1) 

On peut bien évidemment reproduire ce raisonnement pour toutes les valeurs a comprises 
entre 0 et 1. On obtient alors la fonction de répartition inverse 0"' («). Celle de la loi normale 
centrée réduite est reproduite sur la figure 6.9. Pour chaque valeur a e [0,1] sur l’axe des 
abscisses, cette fonction renvoie sur l’axe des ordonnées la valeur du quantile d’ordre a tel 
que Pr(X < 0~' (a)) = 0(&~' (a)) - <r. 



A Figure 6.9 Fonction de répartition inverse de la loi (V(0,1) 
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ilfl Moments d'une variable aléatoire 
continue 

La définition générale des moments ordinaires et centrés - intégrale de Riemann- 
Stieltjes, équations (6.29) et (6.30) - est valable quel que soit le type de variable aléa¬ 
toire (discrète ou continue). Mais dans le cas des variables continues, nous pouvons 
également définir ces moments à partir de la fonction de densité. 

Définition 6.23 

Soit X une variable aléatoire réelle définie sur un support X (Q) c R et caractérisée 
par une fonction de densité fx (x). Le moment ordinaire (non centré) d’ordre 
k 6 N de la loi de probabilité de X est défini par : 

X +oo 

x k f x (x)dx (6.102) 

oo 

Le moment centré d’ordre k e N de la loi de probabilité de X est défini par : 

X +oo 

(x-E (X)) k f x (x)dx (6.103) 

OO 

Exemple 

On considère une variable aléatoire réelle Z distribuée selon une loi exponentielle de para¬ 
mètre ,1 > 0 sur Z (kl) = R + telle que : 

... fdexp(-zd) VzeR+ 

/z(z) -\ 0 sinon 

Déterminons ses moments ordinaires m\ = E (Z) et in 2 = E(Z 2 ). 

X +oo /-»+co 

z fz (z) dz. = I z/l exp (—zd) dz 

co Jo 

En intégrant par parties avec u = /lz et u = exp(-zd), il vient : 

B (Z) = [-zexp(-dz)]o“° + f exp(-z, 

Jo 

/-»+oo /-%+ 

puisque par définition de la densité, I exp(-z-l)Jz = d _l 

Jo Jo 

même façon, déterminons E(Z 2 ). 

X +OO s*+co 

z 2 fz (z) dz = z+l exp (-ZÀ) dz 

CO xJ 0 

En intégrant par parties, on obtient : 


\À)dz - 0+ i ^ 

A A 


fz (z) dz 


(6.104) 

(6.105) 

(6.106) 
d' 1 . De la 

(6.107) 


E(Z) 


X +oo 

2z exp(- 


-zd)Jz = 0 + -| = -| 


(6.108) 


puisque 


f 


z exp (-ZÀ) dz = À 


-i 


f 


zfz(z)dz = d 1 mi = d L . 


1-2 


Comme pour le cas des variables discrètes (► section 2.3), les moments ordinaires 
peuvent être obtenus à partir de la fonction génératrice des moments. 


161 







Copyright © 2015 Dunod. 


Partie 2 Probabilités et variable aléatoire 


Di^fliÜQû-ê*2â 

La fonction génératrice des moments d’une variable aléatoire réelle X est définie 
par : 

X +OO 

exp (tx) fx(x)dx Vr 6 R (6.109) 

oo 


Rappelons que si le moment ordinaire d’ordre k existe, il correspond à la dérivée k‘ 
de la fonction génératrice des moments évaluée au point t - 0. 

d k M x (t) 


m k = 


dt k 


( 6 . 110 ) 


/=o 


Exemple 

On considère une variable aléatoire réelle Z distribuée selon une loi exponentielle de para¬ 
mètre 1 > 0 sur Z (12) = ÎR + . On admet que sa fonction génératrice des moments est définie 
par : 


M z (t) 


-K)' 


( 6 . 111 ) 


Déterminons les moments ordinaires d’ordres 1 et 2 associés à la loi de probabilité de Z. 
Commençons par dériver la fonction génératrice des moments : 

dM z (t) 1 ' m-2 ? / t\-2 


dt 


Dès lors, il vient : 


m ] = E(Z) = 


-îH) 

dM x ( t) 


dt 


d 2 M z {t) 

2 

dt 2 

_ A 2 

W, 

°f 

,=o 4 

4 


K)' 


vl7 2 \ d 2 M x (t) 2 1 or- 2 

/«2 = E (Z ) = — = ( — q j = Ji 


( 6 . 112 ) 

(6.113) 

(6.114) 


On vérifie que l’on retrouve les expressions de m\ et m 2 obtenues précédemment. 


lëgl Moments remarquables 


Comme nous l’avons vu dans la section 2.3 pour le cas des variables discrètes, certains 
moments méritent généralement une attention toute particulière. C’est typiquement le 
cas de l’espérance m\ et de la variance q?- 


PéfiniîiaaA25 

Soit X une variable aléatoire réelle continue, son espérance et sa variance sont 
définies par : 


X +oc 

00 

X +o 

oo 


v fx (x) dx 

(x-E(X)) 2 f x (x)dx 


(6.115) 

(6.116) 


L’interprétation et les propriétés de ces deux moments sont identiques à celles que 
nous avions présentées dans la section 2.3 pour le cas des variables discrètes. Nous 
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n’y reviendrons pas. Toutefois, dans le cas des variables continues en plus de ces deux 
moments, on s’intéresse parfois (par exemple en finance ou en gestion des risques) à 
des transformées des moments centrés d’ordre 3 et 4, à savoir la skewness (ou coef¬ 
ficient de dissymétrie) et la kurtosis (ou coefficient d’aplatissement). Il convient une 
nouvelle fois de bien distinguer les concepts de skewness et de kurtosis associés à une 
variable aléatoire, et les concepts de skewness et de kurtosis empiriques associés à un 
échantillon ou une population (► chapitre 1 ). 


3.4.1 


Skewness 


La skewness est un indicateur de la dissymétrie de la distribution. 


Définition 6.26 


La skewness (ou coefficient de dissymétrie) d’une variable aléatoire X est définie 
par : 


skewness = 



E((X-E(X)) 3 ) 
Y ( XŸ 12 


(6.117) 
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Notons que cette définition est valable quel que soit le type (discret ou continu) de 
variable aléatoire considérée 1 * . Une autre façon d’inteipréter la skewness consiste à 
remarquer que si l’on pose E(X) = m\ et Y (X) = alors il vient : 


skewness = E 


X-m 




1/2 

H 


(6.118) 


La skewness correspond donc au moment centré d’ordre 3 de la variable centrée ré¬ 
duite (X - mi)///* /2 . 


Propriété 

Skewness 

La skewness est un indicateur de la symétrie de la fonction de densité par rap¬ 
port à E(X) = ni\. En effet, si la fonction de densité est symétrique, c’est-à-dire si 
fx ( m i - x) = fx ( m\ + x) Vx e R, alors la skewness est nulle 1 '. 


Dit autrement, une « skewness nulle » indique que l’on a autant de chances d’obtenir 
des réalisations inférieures à l’espérance E(X) que d’obtenir des réalisations supé¬ 
rieures à l’espérance, i.e. Pr(X < E(X)) = Pr(X > E(X)) = 1/2. Si la skewness est po¬ 
sitive, la queue de distribution est étalée vers la droite, comme l’illustre la figure 6.10. 
Cela signifie que la probabilité d’obtenir des réalisations supérieures à l’espérance 
E(X) est supérieure à la probabilité d’obtenir des réalisations inférieures à E(X), i.e. 
Pr(X > E(X)) > Pr(X < E(X)). 


11 La skewness et la kurtosis peuvent être calculées pour des lois de probabilité discrètes. Toutefois, dans 
la pratique, on s'intéresse plus souvent aux phénomènes de dissymétrie ou d'applatissement dans le cadre 
de distributions continues. 

12 Puisque la variance est toujours positive, la skewness est nulle dès lors que le moment ordinaire d’ordre 

3 est nul. i.e. /o = E( (X - E (X)) 3 ) = 0. 
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-5 0 5 

▲ Figure 6.10 Skewness et dissymétrie de la forte 
tion de densité 



A Figure 6.11 Kurtosis et aplatissement des 
queues de distribution 


3.4.2 Kurtosis 


La kurtosis est un indicateur de l’aplatissement des queues de la distribution. 

Définition 6.27 

La kurtosis (ou coefficient d’aplatissement) d’une variable aléatoire X est définie 


par : 


. . m E((X-E(X)) 4 ) 

kurtosis = — =--- 

A V(X) 2 


(6.119) 


On peut montrer que la kurtosis correspond au moment centré d’ordre 4 de la variable 
centrée réduite (X -nt\) /p' 2 : 


kurtosis = E 


y N 

X - m\ 

4\ 

,1/2 


\v P-> J 



( 6 . 120 ) 


Pmpjiélé 


La kurtosis est un indicateur de l’aplatissement des queues de la distribution : plus la 
kurtosis est élevé, plus la probabilité d’apparition d’événements « extrêmes » (réa¬ 
lisations très grandes en valeur absolue) est élevée. 


Soient deux distributions symétriques A et B de même espérance telles que le kurtosis 
de A est supérieur au kurtosis de B. Comme l’illustre la figure 6.11, les queues gauche 
et droite de la distribution A sont plus « épaisses » que celles de la distribution B. 
Quelle est l’implication de ce résultat ? Considérons la probabilité d’obtenir des réali¬ 
sations positives très élevées, par exemple supérieures à 3 dans ce cas. L’aire sous la 
densité de A (courbe rouge) située à droite de la valeur 3 est plus grande que l’aire sous 
la densité de B (courbe bleue). Par conséquent Pr (A > 3) > Pr (B > 3) : la probabilité 
d’apparition de très fortes réalisations positives est plus élevée avec la distribution A 
qu’avec la distribution B. On peut faire le même raisonnement pour des réalisations 
fortement négatives. 
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On compare généralement la kurtosis d’une distribution à cellle de la loi normale. Pour 
une loi normale, la kurtosis est égale à 3. Suivant la valeur de la kurtosis, on distingue 
trois types de distributions (► chapitre 1) : 

- Si la kurtosis est supérieure à 3, on dit que la distribution est leptokurtique. 

- Si la kurtosis est égale à 3, on dit que la distribution est mésokurtique. 

- Si la kurtosis est inférieure à 3, on dit que la distribution est platykurtique. 

Si une distribution est leptokurtique, cela signifie que sa kurtosis est supérieure à 
celle de la loi normale. Par conséquent, la probabilité d’apparition d’événements « ex¬ 
trêmes » est plus élevée avec cette distribution qu’avec une distribution normale. En 
finance, on observe généralement que c’est typiquement le cas pour la distribution 
des rendements de la plupart des actifs financiers. Si une distribution est mésokur¬ 
tique, cela signifie au contraire que sa kurtosis est égale à celle de la loi normale. On 
peut aussi définir une kurtosis normalisée égale à Hnln\ - 3. La caractérisation de la 
distribution se fait alors par comparaison de la kurtosis normalisée par rapport à 0. 

Fi Comparaison des variables 
continues et discrètes 

L’objectif de cette section est de proposer une comparaison synthétique des variables 
aléatoires discrètes et des variables aléatoires continues. 

Propriété 

Une loi de probabilité discrète ou continue peut être caractérisée de façon équiva¬ 
lente par (i) sa fonction de masse ou de densité, (ii) sa fonction de répartition ou (iii) 
la population de ses moments. 

Le tableau 6.5 résume les principales différences entre les variables aléatoires conti¬ 
nues et les variables aléatoires discrètes. Afin de simplifier les notations pour les va¬ 
riables aléatoires discrètes nous ne présenterons les principales formules que dans le 
cas où le support X (12) est fini dénombrable de dimension n. 

Y Tableau 6.5 Principales propriétés des variables aléatoires continues et discrètes 


S Variable aléatoire discrète 

Variable aléatoire continue j 

Support 

Fini (ou infini dénombrable) 

Infini non dénombrable 

X(Q) = {x,. x n ] 

X(fi)çR 

Loi de probabilité 

Fonction de masse 

Fonction de densité 

fx(x) = Pr(X = x) 

Mx) 

0< f x (x) < 1 VxeX(fl) 

fx (x) > 0 Vx e X (£2) 

n 

Yj f X (*/) = 1 

(=1 

/»co 

1 fx (x) dx = 1 

— CO 
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Variable aléatoire discrète 


Variable aléatoire continue 


Fonction de répartition 

F x (x) = Pr(X<x) 

0 < F x (x) < 1 Vx e R 

Fx (x) = Yj Pr ( x = */) F x (x) = f fx (u) du 

kJ —CO 


x,<x 


Quantile d'ordre a ou fonction de répartition inverse 


a e [0,1] F* 1 (a) e X (il) 


Plus petite réalisation F x (a) telle que 
Pr(X < F X 1 («)) > cy 


Réalisation F* 1 (a) telle que 
Pr(X < Fÿ (a)) = a 


Le tableau 6.6 reprend les différentes notions relatives aux moments (ordinaires et 
centrés), ainsi que les définitions et les propriétés de l’espérance et de la variance, 
pour les variables discrètes et continues. 

T Tableau 6.6 Moments des variables aléatoires continues et discrètes 


Variable aléatoire discrète 


Variable aléatoire continue 


Moments ordinaires (non centrés) 

m k = E(X*) y/ce N 

X +oo 

x k f x (x)dx 

CO 


f=1 


Moments centrés 


fi k = E((X - E(X)) k ) Vit e N 

F) /-»+oo 

!*k = YS Xi - EiX))k Pr = *i) Fk = (x - E (X)) k f x (X) dx 

i= i 

Fonction génératrice de moments 

M x ( t) = E (exp (tX)) Vt e R 

F) /-»+oo 

M x (t) = exp (tx,) Pr (X = x,) M x ( t) = I exp (tx) f x (x) dx 

/=i 

Espérance E(X) = m^ 

Fi r*+co 

E(X) = Y j Xi Pr (X = xi) E (X) = I xf x (x) dx 

i=y d~°° 

F! /-%+co 

E (9 (X)) = (Xi) Pr (X = X/) E (g (X)) = g(x) f x (x) dx 

i= i J " K> 

V (a,b) e R 2 , E (a + bX) = a + bE (X) 

Variance V (X) = /i 2 

¥ (X) = E((X - E (X)) 2 ) = E (X 2 ) - (E (X)) 2 

F) s^+co 

V(X) = £(x,- - E(X)) 2 Pr (X = x,) V (X) = (x - E(X)) 2 f x M dx 

sJ —CO 

y (a,b) e R 2 , ¥ (a + bX) = b 2 ¥ (X) 


/=i 
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Couples et vecteurs de variables 
aléatoires 


Considérons à présent deux variables aléatoires (discrètes ou continues) X et F res¬ 
pectivement définies sur X (O) et F (O). On peut alors définir le couple de variables 
aléatoires (X,F) de la façon suivante. 


Définition 6.28 

Les réalisations du couple de variables aléatoires ( X,Y) appartiennent à l'univers 
des réalisations X (O) X Y (Q). 


Le symbole x correspond au produit cartésien. Cela signifie que l’univers des réali¬ 
sations X (O) X Y (Q) (prononcer X (Q) croix Y (fî)) correspond à l’ensemble de tous 
les couples de réalisations ( x,y ) où x G X (O) et y € Y (Q). A partir d'un couple de 
variables aléatoires, il est possible de définir trois notions de distribution : 

- la distribution jointe ; 

- la distribution marginale ; 

- la distribution conditionnelle. 


5.1 


Loi jointe et loi marginale 


Nous allons distinguer les couples de variables aléatoires discrètes des couples de 
variables aléatoires continues. 
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5.1.1 


Cas d'un couple de variables discrètes 


La loi de probabilité jointe (ou distribution jointe) d’un couple de variables aléatoires 
discrètes est définie de la façon suivante. 


Définition 6.29 


L’application Pr((X = x,) fl (F = y/)), V (x,-,y,) € X (Q) x F (Q) définit la loi de 
probabilité jointe du couple de variables aléatoires discrètes (X,F). Puisque les 
réalisations forment un système complet : 


J] Pr((X = x,)n (F = */,)) = 1 


( 6 . 121 ) 


La quantité Pr ((X = x,) n (F = yî)) correspond à la probabilité jointe d’observer à la 
fois X = xi et F = iji. On peut la noter de différentes façons : 

Pr (X = Xi,Y = yd = Pr(x,,ÿ / ) = Pr((X = x,) n (F = y,)) (6.122) 
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Remarque : Une autre façon de se représenter un couple de variables aléatoires 
consiste à supposer que le couple (X,Y) est un vecteur de variables aléatoires Z = 
(Z,F) T de dimension 2 X 1 défini sur l’univers des réalisations Z (O) = X (Q) X Y (fi). 
Le symbole T correspond à la transposée. Pour chaque réalisation zi = (x,-,j/,) t € 
Z(fi), on associe une probabilité Pr(Z = ~ ( ). L’ensemble des probabilités Pr(Z = z;)» 
Vzi e Z(fi), permet de caractériser la loi de probabilité (ou distribution) du vec¬ 
teur aléatoire Z. Cette loi de probabilité correspond à la loi de probabilité jointe du 
couple (X,F). 

La loi de probabilité jointe peut être représentée de façon équivalente par (1) les pro¬ 
babilités jointes, (2) la fonction de répartition associée, ou (3) la population des mo¬ 
ments associés. Le principe de construction de la fonction de répartition jointe et des 
moments associés est similaire à celui présenté dans le cadre univarié (*- section 2.2). 
Pour un couple (ou un vecteur) de variables aléatoires (Z, Y), nous pouvons définir les 
lois de probabilité marginales des variables aléatoires X et Y. Ces lois correspondent 
aux lois des variables X et F considérées en isolation. 

Définition 6,3.0 

Soit (Z,F) un couple de variables aléatoires défini sur le support X (fi) x F (fi). 
On appelle lois de probabilité marginales de X et de F, les applications respec¬ 
tivement définies par : 

Pr (X = Xi) = Y Pr ((X = Xj) (1 (Y = y{)) (6.123) 

Ut et'(SÎ) 

Pr (F = */,)= Yj P r «X = *,) n (F = j,/)) (6.124) 

XjeX(Cl) 


La probabilité marginale Pr(X = x ,) correspond ainsi à la somme des probabilités 
jointes d’observer X = x conjointement à toutes les réalisations possibles de F i.e. 
Y = y \,...,F = y n si F (fi) = { y\,...,y„). 

Par construction, la somme des probabilités marginales Pr(X = x,) associées à toutes 
les réalisations x ( - e X (fi) est égale à 1 : 

Z Pr (X = x,) = Y Z Pr((X = */)n(F = ÿ/)).= 1 (6.125) 

XjeX(Q) XjeX(Q) y,<=Yai) 

De la même façon : 

J] Pr (F = y{) = Y Z Pr((X = *i)n(F = ifc))=l (6.126) 

y,eY(Q) ÿ ,eK(n) jc f eX(£2) 

Remarque : Les lois de probabilité marginales des variables aléatoires X et F, dé¬ 
crites par les équations (6.123) et (6.124) à partir de la loi jointe du couple (X,Y), 
correspondent aux lois de probabilité des variables Z et F considérées en isolation. 
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Exemple 

On considère deux variables aléatoires indépendantes X et y respectivement définies sur 


X (Q) = [a, b) et Y (O) = {1,2}, telles que : 

Pr(X = a) = 0,2 Pr(X = /r) = 0,8 (6.127) 

Pr(F = 1) = 0,7 Pr(K = 2) = 0,3 (6.128) 

On admet que la loi de probabilité jointe du couple ( X,Y ), définie sur X (Ll) x Y (il) = 
{{a, l},{a,2},{b,l},{b,2)}, est définie par : 

Pr((X = a) n (y = 1)) = 0,14 Pr((X = a) n (Y = 2)) = 0,06 (6.129) 

Pr((X = b) n(y= 1)) = 0,56 Pr((X = b) H (Y = 2)) = 0,24 (6.130) 

La probabilité marginale d’observer X = a est égale à : 

Pr(X = a) = Pr((X = u)n(y = 1)) + Pr((X = a) n (Y = 2)) 

= 0,14 + 0,06 = 0,2 (6.131) 

On vérifie que l’on retrouve la même valeur que dans l’équation (6.127). 
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Les notions de distribution jointe et de distribution marginale peuvent être étendues à 
un vecteur de k > 2 variables aléatoires discrètes. 


Péfinitipn 6.3.1 

Soit Xj = (xixt,i) T un vecteur de réalisations du vecteur de variables aléa¬ 
toires discrètes X = (Xj ,...,X k ) T défini sur le support X(£2) = X\ (Q) x ...x 
Xk (Q), alors la loi de probabilité jointe des éléments du vecteur X est définie par 
l’application : 

Pr (X = Xi) = Pr((X, = x M ) O ... O (X* = Xkj)) (6.132) 


La probabilité marginale pour toute variable X,- est définie par l’application : 



\ 

^(Xj = Vx)= Z - Z Pr 

(Xj = x Jt ,) n (X, = x,,,) n... n (X* = **,,) 

jc lt /eX,(n) x kll <=X k (Q) 

' ---" 

k-] événements (on exclut Xj) > 


k -1 sommes (on exclut Xj) 


(6.133) 


Par exemple, si k = 3 et X\ (O) = X 2 (Q) = X 3 (Q) = {1alors les probabilités 
marginales des variables X] et X 2 sont définies par : 

n n 

Pr (Xj = i) = J] Yj Pr((X| = 0 n (Xl = j) 0 (Xa = z)) W = (6J34) 

7=1 Z —1 
n n 

Pr(X 2 = y) = 2]Z Pr(( X 2 = ^ )n( X | =i )n( X 3 =z )) V; (6.135) 

i=l z=\ 
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5.1.2 1 Cas d'un couple de variables continues 


Dans le cas d’un couple de variables aléatoires continues, la logique est la même. On 
peut définir la densité jointe du couple (X,F) comme suit. 

Soit (X,F) un couple de variables aléatoires réelles continues définies sur le sup¬ 
port X (Q) x Y (Q) ç ]R 2 . La loi jointe du couple (X,F) admet une fonction de 
densité jointe, notée fxj (x,y), si cette fonction est définie sur X (Q.) x Y (Q), 
positive ou nulle, intégrable et telle que V ( a x ,b x ) e X (Q) 2 et V {a y ,by^ e Y (Q.) 2 : 



(6.136) 


La fonction de densité jointe possède les mêmes propriétés qu’une fonction de densité. 
Elle est toujours positive ou nulle sur le support du couple (X,Y) et vérifie : 



(6.137) 


Exemple 

On considère un couple de variables aléatoires réelles continues (X,Y) définies sur R 2 , ad¬ 
mettant une distribution jointe normale bivariée telle que : 



(6.138) 


Cette fonction de densité jointe est représentée sur la figure 6.12. Pour toute valeur de x (axe 
X) et toute valeur de y (axe Y), correspond une valeur de la densité jointe (axe vertical). Si 
l’on souhaite calculer la probabilité jointe d’observer X < a et Y < b, il suffit d’évaluer le 
volume sous la fonction de densité jointe pour des valeurs de X inférieures ou égales à a et 
des valeurs de Y inférieures ou égales à b. 


0 , 20 . 



5 


y [-si 


X 


▲ Figure 6.12 Densité jointe d'un couple de variables aléatoires normales 
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Comme pour toute loi, on peut représenter de façon équivalente la loi jointe du couple 
(X,Y) par (i) sa fonction de densité, (ii) sa. fonction de répartition ou (iii) la population 
des moments associés. 







© Dunod. Toute reproduction non autorisée est un délit. 


Chapitre 6 Variable aléatoire 



La fonction de répartition de la loi jointe du couple (X, K), notée Fx,y (x,y) cor¬ 
respond à la probabilité que les variables X et Y soient conjointement inférieures 
où égales à (x,y) € R 2 : 



(6.139) 


Exemple 

On considère un couple de variables aléatoires réelles (X,T) définies sur R 2 , admettant une 


distribution jointe normale bivariée centrée réduite. Tl n’existe pas d’expression analytique 
de la fonction de répartition de cette loi. Toutefois, il est possible de l’approximer numéri¬ 
quement en utilisant des fonctions prédéfinies disponibles dans la plupart des logiciels d’éco- 
nométrie et de mathématique. La figure 6.13 représente cette fonction de répartition. On 
vérifie que lorsque les valeurs de x augmentent, à y constant, la fonction de répartition aug¬ 
mente. Lorsque les deux valeurs x et y tendent vers +oo, la fonction de répartition tend vers I. 
Lorsque les deux valeurs x et y tendent vers —oo, la fonction de répartition tend vers 0. 



5 


y [-si 


x 


▲ Figure 6.13 Fonction de répartition de la loi jointe d'un couple de variables 
aléatoires normales 


À partir de la densité jointe, on peut déterminer les densités marginales des variables X 


et Y. 

Définition 6.34 

Soit (X,Y) un couple de variables aléatoires réelles définies sur le support 
X (fi) X Y (fi) £ R 2 . Les fonctions de densité marginales des variables X et Y , 
notées fx (x) et fy (y), sont définies par : 



fx (x) = | fx,y (x,y) dy f Y (y) = J fx,vi.x,y)dx (6.140) 



Exemple 

On considère un couple de variables aléatoires réelles continues (X,Y) définies sur R 2 , ad¬ 
mettant une distribution jointe normale bivariée standard telle que : 



(6.141) 
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Déterminons la densité marginale de la variable X. Par définition, il vi 


vient : 


fx(x) 


X +oo s-*+co | 

fx,Y (x,y)dlj = J — 


exp 


x 2 + y 2 


dy 


(6.142) 


Sachant que exp (a + b) = exp (a) x exp (b), on peut 

X +OO j 

_ exp (-y 1 12] dy — 1. Par conséquent : 

°o y2n v ' 


réécrire cette expression comme : 

(6.143) 


fx (x) ■ 


(6.144) 


vfe e 4?) 

On retrouve l’expression de la densité d’une loi normale centrée réduite. La loi marginale de 
X correspond à la loi de cette variable prise en isolation. 

Les notions de densité jointe et de densité marginale peuvent être étendues à un vecteur 
de k > 2 variables aléatoires continues. 

Définition 6.35 

Soit X = (Aj,... ,X,) T un vecteur de variables aléatoires réelles défini sur le 

support X (Q) c R k . La fonction de densité jointe, notée fx . x k (xi,...,x*), est 

telle que : 

X *l pXk 

■ I fx u ...,x k {u\,...,u k )du\...du k 

OO \J —oo 

(6.145) 

La fonction de densité marginale associée à la variable X/ est définie ] 


: par : 


X +oo r*+o o 

• I fx . x k (U] . X,...,u k ) du\...du k 

oo J — oo ^ ^ ^ 


(6.146) 


k -1 intégrales 


x à la position k -1 termes (on exclut duj 


Par exemple si k = 3, les densités marginales des variables X] et Xi sont définies par : 

-»+oo y^+OO 

(6.147) 


X +OO /'V+OO 

I fx t ,x 2 ,x 3 (X,U 2 ,U 3 )du 2 dU 3 Vx G X\ (Q) 

oo —OO 


X +oo /-*+oo 

J 

oo — < 


fx. 


fx\,x 2 ,x 3 (•u\,x,u-i)du\du 2 Vx G X 2 (Q) 


(6.148) 


5.2 


Moments d'un vecteur de variables 
aléatoires 


Les moments associés aux distributions marginales des variables X et Y permettent de 
décrire ces deux distributions. Mais quels moments utiliser pour décrire la distribution 
jointe du couple (X,F) et plus précisément le lien entre ces deux variables ? On utilise 
pour cela des moments croisés basés sur le produit des variables aléatoires X x Y. Le 
plus utilisé des moments croisés est la covariance (► chapitre 2 ). 
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5.2.1 


Covariance 


Définition 6.36 

La covariance de deux variables aléatoires X et F est définie par : 

Cov(X,Y) = E[(X-E(X))x(F-E(F))] 

ou de façon équivalente par : 

Cov (X,Y) = E (XF) - E (X) E (Y) 


(6.149) 

(6.150) 


La covariance n’est rien d’autre que l’espérance du produit des variables centrées sur 
leurs espérances respectives. Ce moment permet d’évaluer le sens de variation des 
variables X et Y. 

Si la covariance est positive, cela traduit le fait que les réalisations des deux variables 
ont tendance à être simultanément au-dessus ou en dessous de leurs espérances res¬ 
pectives. Dit autrement, si la covariance est positive, les réalisations des variables X 
et Y évoluent « dans le même sens » : elles ont tendance à être élevées ou faibles en 
même temps. 

Si la covariance est négative, les réalisations ont tendance à évoluer « en sens op¬ 
posé » : lorsque les réalisations de X sont élevées par rapport à son espérance, celles 
de Y ont, au contraire, tendance à être plus faibles que son espérance. Enfin, si la 
covariance est nulle cela traduit l’indépendance des deux variables X et Y. 

Remarque : Il est important de noter que /’ indépendance implique la nullité de la 
covariance, mais que la réciproque n 'est pas nécessairement vraie. 

si X et Y sont indépendantes alors Cov (X,Y) = 0 
si C ov(X,Y) = 0 alors X et Y ne sont pas nécessairement indépendantes 

Ce résultat s’explique par le fait que la covariance est une mesure particulière de la 
dépendance qui peut exister entre X et Y : c’est une mesure de la dépendance linéaire 
puisqu’elle est définie comme une espérance. Or, même s’il n’existe pas de dépen¬ 
dance linéaire entre X et Y, du type Y - a + bX, il peut tout à fait exister d’autres 
formes de dépendances non-linéaires, par exemple Y = X 2 ou Y = ln (X). Ainsi, la 
nullité de la covariance ne garantit pas l’absence de dépendance au sens large (et donc 
l’indépendance), mais uniquement l’absence de dépendance linéaire. Notons que la 
condition Cov (X,F) = 0 est équivalente à la condition E(XF) = E(X)E (F). 


Remarque : La covariance est une mesure symétrique Cou(X,F) = Cov(Y,X). Par 
définition Cov (X,X) = E( (X - E (X)) 2 ) = V (X). 

Par définition Cov(X,Y) e R. Une mesure normalisée sur [-1,1] de dépendance li¬ 
néaire est donnée par la corrélation (► chapitre 2). 


Définition 6,37 


La corrélation entre deux variables aléatoires X et F est définie par : 

Cov(X,Y) 

corr(X,Y) =--— 

<x(X)cr(F) 


(6.151) 


où a (X) = a/V (X) et ct (F) = sjN (F) désignent les écarts-types des variables X 
et F. Par construction, corr(X,Y) e [-1,1], 
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Comment déterminer la covariance (et donc la corrélation) dans le cas de variables 
aléatoires discrètes et de variables aléatoires continues ? Pour cela, on utilise la distri¬ 
bution jointe du couple (X,7). 

Définition 6,38 

La covariance de deux variables aléatoires discrètes X et 7 est égale à : 

Cov(X,Y)= ^ 2 Xi yi Pr (( x = Xi)n(Y = yi))-E(X)xE(Y) (6.152) 

x,eX(n) y,-eY(i 2) 

La covariance de deux variables aléatoires continues X et Y est égale à : 

X +oo r*+oo 

I ^ y ,fx,Y (x,y) dxdy-E (X) X E (7) (6.153) 

CO J-oo 

Exemple 

On considère deux variables aléatoires indépendantes X et Y respectivement définies sur 


X(Q) = (10,20) et Y (fi) = ( 1,2) telles que : 

Pr(X = 10) = 0,2 Pr(7 = 1) = 0,7 (6.154) 

On admet que la loi de probabilité jointe du couple (X,7) sur X (O) x Y (il) 
= {{10,1),(10,2},(20,1),(20,2}), est définie par: 

Pr((X = 10) n (7= 1)) = 0,14 Pr((X = 10) n (7 = 2)) = 0,06 (6.155) 

Pr((X = 20) n (7 = 1)) = 0,56 Pr((X = 20) n (7 = 2)) = 0,24 (6.156) 

On montre que : 

E(X) = 10 x Pr(X = 10) + 20 x Pr(X = 20) = 18 (6.157) 

E(7)= 1 x Pr(7 = I) + 2 x Pr(7 = 2) = 1,3 (6.158) 

La covariance entre X et K est définie par : 

4 4 

Cou (X, 7) = Yj Yj x ‘ ■>' Pr ((X = Xi) n ( : Y = yi)) - e (X) x E (7) (6.159) 

<=l 7=1 

On vérifie que cette covariance est nulle puisque les variables sont indépendantes. 

Cou(X,Y) = 0,14x 10 + 0,06x20 + 0,56x20 + 0,24x40- l,3x 18=0 (6.160) 


Matrice de variance-covariance 


Comme nous l’avons dit, une autre façon de présenter un couple de variables aléatoires 
consiste à définir un vecteur de variables aléatoires Z = (X,7) r de dimension 2x1. 
Les moments de ce vecteur sont alors des vecteurs ou des matrices. En particulier, 
l’espérance est un vecteur de dimension 2 x 1 tel que : 

=®= E (î) = P!) <6161) 

Le concept de « variance » du vecteur Z correspond à l’espérance du « carré » de 
l’écart Z - E(Z). Mais puisque Z - E(Z) est un vecteur, cette notion de « carré » est 
remplacée par le produit vectoriel (Z - E(Z)) (Z - E(Z)) T . Ainsi, la « variance » du 


5.2.2 


174 






Chapitre 6 Variable aléatoire 


X! 

O 

c 

ri 

û 


o -g 
(N I. 


© 


en 


> 

CL 

O 

U 


vecteur Z devient 


(2x2) 


(Z) = E (Z - E (Z))x (Z - E (Z)) 1 


(2x1) 


(1x2) 


En développant ces termes, on obtient : 

X — E(X) y-E(Z)) 


V (Z) = E 

(2x2) 


X - E(X) 
y-E(Z) 


E ((X - E (X)) 2 ) E ((X - E (X)) (Y - E (K))) ' 
E((Y - E(Z))(X - E (X))) E ((Z - E (Z)) 2 ) 


(6.162) 


(6.163) 


ou encore : 

/ V(X) Cov(X,Y)\ 
(2x2) \Coü (X,Y) Y (Y) ) 


(6.164) 


On obtient ainsi une matrice de variance-covariance dont les termes de la diagonale 
principale sont les variances des composantes du vecteur Z (i.e. les variables X et Y) 
et les termes hors-diagonale correspondent aux covariances. 

De façon générale, pour un vecteur de variables aléatoires X = (Xi ,...,X k ) T de dimen¬ 
sion k X 1, on peut définir un vecteur espérance de dimension k X 1 et une matrice de 
variance-covariance de dimension k X k. 


Défjnjtign 6,3g 

Soit X = (X| ,...,X,) T un vecteur de variables aléatoires de dimension k x 1, son 
espérance et sa matrice de variance-covariance sont définies par : 

'E(Xi)' 


'X,' 


E(X) = E 


V(X) = 

(kxk) 


( * xl) U J 

E(X k )j 


' V(X,) Coü(Xi,X 2 ) ... 

Cov(X i ,X,) 

... Cov (X,,X*) 

Coü(X 2i X,) V(X 2 ) ... 

Cov(X 2 ,Xi) 

... Cov(X 2 > Xt) 

Cov (X,,Xi) Cou(X,-,X 2 ) ... 

Y (Xi) 

... Cov(X„X k ) 

,C ov{X k ,X x ) Cov(X k ,X 2 ) ... 

C ov(X k ,Xi) 

... Y(X k ) , 


(6.165) 


, Propriété 

Matrice de variance-covariance 

Une matrice de variance-covariance est une matrice carrée, symétrique et définie- 
positive. 

Rappelons qu’une matrice A est symétrique si A T = A. La propriété de symétrie de 
la matrice de variance-covariance tient au fait que Cov (x,,X ; ) = Cou (X ; ,X,). La ma¬ 
trice de variance-covariance est en outre définie-positive, cela signifie que toutes ses 
valeurs propres sont positives strictement. Rappelons que dans le cas scalaire, k = 1, 
la variance ne peut pas être négative, ni nulle. Dans le cas matriciel, cela implique que 
pour tout vecteur Z non nul de dimension k X 1, le scalaire correspondant à la forme 
quadratique Z T V (X) Z est strictement positif. 
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5.3 


Loi conditionnelle 


Le concept de probabilité conditionnelle a été défini ci-avant (► chapitre 5). Dans le 
cadre des variables aléatoires, ce concept se traduit par la notion de loi de probabilité 
conditionnelle (ou distribution conditionnelle). 


5.3.1 


Cas d'un couple de variables discrètes 


Soient deux variables aléatoires discrètes X et F respectivement définies sur X (Q) 
et Y (12). Caractérisons la loi de probabilité conditionnelle (ou distribution condition¬ 
nelle) de la variable X sachant que Y = y, où y e Y (12). 


Définition 6.40 


L’application Pr(X = x,| Y = y,), Vx,- e X (12) définit la loi de probabilité condi¬ 
tionnelle de la variable X sachant Y = y,. Par définition : 


Pr(X = x,| Y = yi ) = 


Pr((X = x,) n (F = y,-)) 
Pr(F = y{) 


Vx, e X(Ü) 


(6.166) 


Le terme Pr(X = x,| Y = yi) se lit « probabilité que la variable X prenne la valeur 
Xj sachant que la variable Y est égale à y, ». Cette définition peut être interprétée 
comme une application du théorème de Bayes (► chapitre 5) au système complet des 
réalisations (x,■,{/,). De façon symétrique, on peut définir la loi de probabilité de la 
variable Y sachant X = x,- par : 


Pr ( F = yi\ X - x^ = 


Pr ({X = Xj) n (F = j/ ; )) 
Pr(X = x,) 


Vy,eY( 12) 


(6.167) 


Les probabilités conditionnelles, comme toute probabilité, somment à l’unité. 


V Pr(X = Xi\Y = y.) = *_ V Pr((X = x,) n (F = y t )) 

x,£X(0) r ' x,eX(ii) 


Pr (Y = y j) 
Pr (F = J/;) 


(6.168) 


Exemple 

On considère deux variables aléatoires indépendantes X et Y respectivement définies sur 
X (il) = {a,b] et Y (Ll) = ( 1,2}. On admet que : 

Pr(X - a) - 0,2 Pr(L=l) = 0,7 (6.169) 

Pr(CY = a)n(F= 1)) = 0,14 Pr((X = b) 0 (Y = 1)) = 0,56 (6.170) 


La loi conditionnelle de X sachant que Y = 1 est définie par les probabilités suivantes 

Pr((X = a)n(F = 1)) 0,14 


Pr ( X = cr| P = 1) = 
Pr(X = b\Y= 1) = 


Pr(F=I) 0,7 

Pr((X = fc) n (F = 1» 0,56 

Pr(F =1) _ 0,7 


: 0,20 

: 0,80 


(6.171) 

(6.172) 
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Dans l’exemple précédent, on vérifie que Pr(X = a\ Y = 1) = Pr(X = a) et que 
Pr(X = b\ Y = 1 ) = Pr(X = b). Les probabilités conditionnelles sont égales aux pro¬ 
babilités marginales. Dit autrement, le fait de savoir que F = 1 ne modifie en rien la loi 
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de probabilité de X. Cette propriété est la conséquence de l’hypothèse d’indépendance 
des variables X et Y. 

Propriété 

Indépendance 

Les variables aléatoires discrètes X et Y sont indépendantes lorsque les relations 
suivantes sont vérifiées Vx, € X (Q) et Vy, 6 Y (Q) : 

Pr ((X = Xi ) n (Y = {/,)) = Pr (X = x ; ) X Pr ( Y = y t ) (6.173) 

Pr(X = xi\ Y = i /,) = Pr (X = x ; ) (6.174) 

Pr(L = yi\ X = xt) = Pr (Y = yi) (6.175) 


En cas d'indépendance, les probabilités jointes sont égales au produit des probabilités 
marginales et les probabilités conditionnelles sont égales aux probabilités marginales. 
Rappelons que l’indépendance est une notion conditionnelle à une certaine mesure de 
probabilité (► chapitre 5). 

Les moments associés à la loi de probabilité conditionnelle ou « moments condition¬ 
nels » sont définis de la façon suivante. 

Définition 6.41 

Pour un univers des réalisations fini X(O) = jxi les moments condition¬ 

nels ordinaires et centrés de la variable X sachant Y = ÿ, sont définis par : 

n 

B(X*| Y = y i ) = Y À J<t Pr(X = x,j Y = yi ) (6.176) 

1=1 
n 

E ( (X - E (X))*| Y = y t ) = J] (jc, - E (X))* Pr ( X = x,| Y = Vl ) (6.177) 

i= I 
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En particulier on peut définir l’espérance conditionnelle (moment ordinaire d’ordre 
un) et la variance conditionnelle (moment centré d’ordre deux) comme suit : 

n 

E(X| Y = y i ) = Y J x i Pr(X = x,j Y = yî) (6.178) 

i= 1 
n 

V (X| Y = ÿi ) = Yj ( x i ~ E (X)) 2 Pr ( X = jc,| Y = y t ) (6.179) 

i=i 

Toutes ces définitions peuvent être généralisées au cas d’un vecteur de variables aléa¬ 
toires discrètes. 

Cas d'un couple de variables continues 

Soient deux variables aléatoires continues X et F respectivement définies sur X (Q) 
et Y (fl). La loi de probabilité conditionnelle (ou distribution conditionnelle) de la 
variable X sachant que Y = y, où y 6 Y (£2), est définie de la façon suivante. 


5.3.2 
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Définition 6.42 

Soit ( X,Y ) un couple de variables aléatoires réelles continues définies sur le sup¬ 
port X (£2) X Y (12) ç R 2 . La fonction de densité conditionnelle de la variable X 
sachant que Y = c est définie par : 


fx\y(x\ c) 


fx,Y (• X,C) 
XtT fx, Y (x,c)dx 


fx,Y (x,c) 

f y(c ) 


V;r€X(12) 


(6.180) 


où fx,y (x,c) désigne la densité jointe et fy (c) la densité marginale de la variable 
Y évaluée pour une valeur c. 


La densité conditionnelle peut être notée de façon équivalente par : 

fx\Y (*k) = fx\Y=c (x) = ,fx\c (x) (6.181) 

Exemple 

On considère un couple de variables aléatoires réelles continues et indépendantes ( X,Y ) défi¬ 
nies sur R 2 , admettant une distribution jointe normale bivariée standard telle que : 


x 2 + y 2 

fx,Y (x,y) = — exp|-- 


V (x,y) € : 


On admet que la densité marginale de la variable Y est égale à : 

1 


fr(y) 

Xi 

fx,Y (x,y) 


vfe exp K) 


Vy e 


La densité conditionnelle de X sachant que Y = y est définie par : 

» V V 1 A.-U III 

Ix\y(x\ y) = 


/y (y) 


V^ eXP l“2 


I 


On obtient donc que : 


/x\y(x\ij) = 




exp 


2^ CXP 


V.r € ’ 


x 2 +y 1 


(6.182) 


(6.183) 


(6.184) 


(6.185) 


Cette fonction de densité correspond à celle d’une loi normale centrée réduite. Puisque les 
variables X et Y sont indépendantes, la densité conditionnelle de X sachant Y = y correspond 
à la densité marginale de X. 


Propriété 

Indépendance 

Les variables aléatoires continues X et Y sont indépendantes lorsque les relations 
suivantes sont vérifiées V* e X (Q.) et \ri/ e Y (Q) : 

fx,Y (x,y) = fx (x) x f Y (y) (6.186) 

fx\y(x\ y) = fx(x) (6.187) 

fy\x (y\x) = fy (y) (6.188) 


Sous l’hypothèse d’indépendance, la densité jointe est égale au produit des densités 
marginales et les densités conditionnelles correspondent aux densités marginales. 
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Définition 6.43 

Les moments conditionnels ordinaires et centrés de la variable X sachant Y = y, 
sont définis par : 



L'espérance conditionnelle (moment ordinaire d’ordre un) et la variance condition 
nelle (moment centré d’ordre deux) vérifient : 



(6.191) 


(6.192) 


Il convient de noter que la détermination de ces moments conditionnels ne requiert 
pas nécessairement la connaissance de la densité conditionnelle. Par exemple, dans le 
cadre d’un modèle linéaire du type Y = a + bX, dès lors que l’on sait que X = x, 
on peut traiter X comme une constante dans le calcul de l’espérance et de la variance 
conditionnelles de la variable Y. 

Exemple 

Soit un modèle de régression linéaire tel que 


Y = fio + f}\X + s 


(6.193) 


où Y désigne une variable dépendante, X une variable explicative et s un terme d’er¬ 
reur aléatoire. On ne connaît pas la loi de e, mais l’on suppose que E(e|X = x) = 0 et 
¥(e|X = x) = cr 2 . La variable explicative X est distribuée selon une loi inconnue. Détermi¬ 
nons l’espérance et la variance conditionnelles de Y sachant X = x. 


E(K|X = jc) = E(/3 0 +/ï|X + £|X = x) 


(6.194) 

(6.195) 

(6.196) 


= po+p x x + B(e\X = x) 
= p 0 +P\x 


De la même façon, on obtient : 



Ainsi nous sommes capables de caractériser E ( P| X = x) et V ( L| X = x) sans connaître la loi 
conditionnelle de Y sachant X = x et sa densité conditionnelle. 


V ( P| X = jc) = V (/?n + P\X + e\X - x) 

= V ( (po +P\x) + (e|X = x)) 


= V ( e\ X = x) = cr 2 


(6.197) 

(6.198) 

(6.199) 
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3 questions à 

Stéphanie Tring 

Chargée d'études statistiques chez 
AXA Direct Protection 

55 



Quel est votre parcours professionnel et votre mission 
actuelle chez AXA ? 

À l'issue de mon stage de fin d'études du master ESA 
effectué chez BNP Personal Finance, j'ai été embauchée en 
2013 chez AXA Direct Protection. Au sein de la direction 
développement produit et de la planification stratégique, je 
suis chargée de maximiser la connaissance clients et 
prospects. Cela se traduit par du ciblage client et de l'analyse 
du parcours du client. Pour cela j'utilise principalement des 
méthodes de segmentation et de scoring. Ma mission 
consiste également à suivre et à analyser les campagnes 
marketing implémentées par le marketing opérationnel et le 
marketing digital. L'analyse des campagnes passe, entre 
autres, par l'étude des profils de clients en situation 
d'impayé et l'analyse de la persistance dans le portefeuille à 
plusieurs horizons. 


Dans le cadre de votre activité professionnelle, quelle 
est l'utilité pratique du concept de variable aléatoire ? 

Notre activité quotidienne est fondée sur une représentation 
des caractéristiques ou des comportements des clients par le 
biais de variables aléatoires. Par exemple, dans le cadre des 
modélisations de score, on souhaite mesurer l'appétence 
(représentée par une variable aléatoire) d'un prospect pour 
un produit à partir de variables socio-démographiques 
(variables aléatoires). Les variables utilisées pour la 
modélisation sont qualitatives ou quantitatives. 


Quelle est le rôle de la statistique dans les activités 
marketing d’un groupe comme AXA ? 

Au sein du marketing, la statistique permet d'avoir une 
meilleure connaissance client et prospect, afin de proposer le 
produit le plus adapté à chaque client. De plus, l'utilisation 
de la statistique a également un impact sur les coûts 
d'acquisition des clients qui peuvent être réduits grâce à une 
meilleure connaissance du portefeuille. Le rôle du chargé 
d'études est aussi d'approfondir certains sujets particuliers 
tels que les impayés ou la diminution de l'érosion du 
portefeuille clients. ■ 
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Les points clés 

Une variable aléatoire est une application mesurable d’un univers des possibles 
probabilisé vers un univers des réalisations probabilisables. 


Le support de la distribution d’une variable aléatoire correspond à l’univers de ses 
réalisations. 


Une variable aléatoire discrète est définie sur un support fini ou infini dénom¬ 
brable. 


Une variable aléatoire continue est définie sur un support infini non dénombrable. 


La fonction de masse d’une variable aléatoire discrète correspond à la probabilité 
associée à une réalisation particulière. 


Pour une variable continue, la probabilité associée à une réalisation particulière 
est nulle. 


La fonction de répartition correspond à la probabilité cumulée que les réalisations 
d’une variable aléatoire (discrète ou continue) soient inférieures à une certaine 
valeur. 

Un quantile est défini par l’inverse de la fonction de répartition. 

Une loi de probabilité discrète ou continue peut être caractérisée par la fonction 
de masse ou de densité suivant les cas, par la fonction de répartition ou par la 
population des moments (ordinaires ou centrés). 
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L’espérance, moment ordinaire d’ordre un, est un opérateur linéaire. 


La variance, moment centré d’ordre deux, est un opérateur quadratique. 


Pour un couple ou un vecteur de variables aléatoires, on distingue les notions de 
distribution marginale, distribution jointe et distribution conditionnelle. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Variable aléatoire 

a. Une variable aléatoire est une application. 

b. Une variable aléatoire qualitative peut être continue. 

c. Une variable aléatoire est définie sur un univers pro- 
babilisé. 

d. Une variable aléatoire continue est définie sur un 
support infini. 

e. Une variable aléatoire discrète est définie sur un sup¬ 
port infini. 

Fonction de densité, de masse et de répartition 

a. La fonction de masse correspond à une probabilité. 

b. Une densité est comprise entre 0 et I. 

c. La fonction de densité est la primitive de la fonction 
de répartition. 

d. La fonction de répartition correspond à une probabi¬ 
lité cumulée. 


4 Indépendance 

a. Si la covariance entre deux variables est nulle, ces 
variables sont indépendantes. 

b. Si la densité jointe est égale au produit des densités 
conditionnelles, les variables sont indépendantes. 

c. Si les densités conditionnelles sont égales aux densi¬ 
tés marginales, les variables sont indépendantes. 

d. Si deux variables sont indépendantes, leur corréla¬ 
tion est nulle. 

e. La notion d’indépendance est relative à une mesure 
de probabilité. 


Exercices 


Fonction de répartition 

Soit X une variable aléatoire réelle. On suppose que sa 
fonction de répartition F x (jc) est donnée par : 


Fx U) = 


0 si jc < 0 

1/4 si 0 < jc < I 

3/4 si 1 < jc < 2 

1 si jc > 2 


( 6 . 200 ) 


1. Calculer la probabilité Pr (—1/2 < X < 1/2). 


e. La fonction de masse est la dérivée de la fonction de 
répartition. 

Fonction de répartition et quantité 

a. Un quantile est une probabilité. 

b. La fonction de répartition inverse est croissante sur 

[ 0 , 1 ]. 

c. Si le support de la loi est une partie de R, les quan¬ 
ti les sont définis sur R. 

d. La fonction de répartition a toujours une expression 
analytique. 

e. La fonction de répartition est croissante sur le sup¬ 
port de la loi de probabilité. 


2 . Calculer la probabilité Pr (—1/2 < X < 3/2). 

3 . Calculer la probabilité Pr(X > 3). 

Espérance 

Soit X une variable aléatoire et a un nombre réel quel¬ 
conque. 

1. Démontrer que : 

E((X-cr) 2 ) = V(X) + (E(X-a)) 2 (6.201) 

où E(.) désigne l’espérance et V(.) désigne la va¬ 
riance. 

2 . Déterminer la valeur de a pour laquelle l'espérance 
E((X - a) 2 ) est minimum. 
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Fonction de densité 

Soit 0 un nombre réel et fx (.) une fonction définie par : 

*!*>» (6 - 202) 

1. Montrer que fx(-) satisfait aux conditions requises 
pour être la densité de probabilité d’une variable 
aléatoire continue. On utilisera pour cela la fonction 
gamma, notée C(z), telle que : 

f+o o 

r(z)= I exp (-t)dt VzeR + (6.203) 
Jo 

E(z) = (z-1)! VzeN (6.204) 

2 . Déterminer la fonction de répartition F x (x) de la va¬ 
riable aléatoire X de densité f x (.). 

3 . Exprimer l’espérance E(X) en fonction de la valeur 
de 9. 

4. Exprimer le moment simple d’ordre 2 de la variable 
aléatoire X et sa variance V (X) en fonction de la va¬ 
leur de 0. 


Sujets d'examen 

Transformée de variable aléatoire (d’après 
Edhec 2009, voie E) 

Dans cet exercice, p désigne un réel de ]0,1 [ et on note 
q - 1 - p. On considère deux variables aléatoires X et 
Y définies sur le même espace probabilisé {Fl,T, Pr), in¬ 
dépendantes et suivant toutes deux la même loi géomé¬ 
trique de paramètre p telle que : 

Pr(X = k) = Pr (Y = k) = q k ~' p Vk e N* (6.205) 
On pose : 

Z = inf (X,T) (6.206) 

et on admet que Z est une variable aléatoire, elle aussi 
définie sur le même espace probabilisé {Fl,T, Pr). On 
rappelle que pour tout entier naturel k, on a l’égalité : 

(Z > k) = (X > k) n {Y > k) (6.207) 


2 . Établir que, pour tout entier naturel k supérieur ou 
égal à 1, on a : 

Pr(Z = k) = Pr(Z > k - 1) - Pr(z > k) (6.208) 

3 . En déduire que Z suit une loi géométrique de para¬ 
mètre ( i - q 2 y 

Variable aléatoire discrète (d’après EM Lyon, 
voie E) 

On dispose d’un jeu de 2 n cartes, avec n e N’, qui 
contient deux rois rouges. Les cartes du jeu sont alignées 
sur une table de façon aléatoire. Le joueur retourne les 
cartes une par une jusqu’à obtenir un roi rouge. On défi¬ 
nit l’événement E k comme « le premier roi rouge obtenu 
est la k 1 ’""’ carte retournée ». 

1. Calculer Pr(£) ). puis en fonction de n et de k définir 
la probabilité Pr ( E k ) pour k > 2. 

2 . Le joueur donne un euro à chaque carte retournée et 
dès qu’il obtient un roi rouge, il obtient a euros et le 
jeu s’arrête. Son gain est représenté par la variable 
aléatoire X. Quelle est la valeur de X si le premier 
roi rouge est la k emc carte retournée ? 

3 . Démontrer que Vâ: e {l,...,2n} : 

2 n — k 

Pr (X = a- k)= —-- (6.209) 

n (2n — 1) 

4. Vérifier que : 

2 n 

Y J Pr{X = a-k)=\ (6.210) 

k= I 

10 Variable aléatoire continue 

On considère une fonction f x (x) définie par : 

fx (*) = fl exp (- |.r|) V.r e R (6.211) 

où a est une constante réelle. 

1. Déterminer la constante a pour que la fonction f x {x) 
soit la fonction de densité d’une variable aléatoire 
réelle X. 

2 . Déterminer la fonction de répartition de la variable 
aléatoire X. 


1. Pour tout entier naturel k, calculez Pr (Z > k). 


3 . Calculer l’espérance de la variable aléatoire X. 
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Chapitre 



C ertaines lois de probabilité possèdent des pro¬ 
priétés particulières et sont très souvent em¬ 
ployées pour modéliser les phénomènes de la 
vie quotidienne ou de la vie économique. Du fait de 
leur utilisation fréquente, on les qualifie de lois de 
probabilité usuelles ou de lois usuelles. Toutes ces 
lois sont désignées par un nom , par exemple loi 
binomiale, loi de Poisson, loi de Student, loi bino¬ 
miale négative, etc. Les lois usuelles, discrètes ou 
continues, sont souvent des lois paramétriques, cela 


signifie que leur fonction de masse ou de densité dé¬ 
pend d’un ou de plusieurs paramètres. Par exemple, 
la fonction de masse associée à une loi de Poisson 
dépend d’un paramètre positif noté A. Les noms des 
lois usuelles sont représentés par des abréviations 
qui font souvent apparaître les paramètres de leur 
fonction de densité ou leur fonction de masse. Ainsi, 
la loi de Poisson est notée P (A), la loi binomiale 
S(n,p), etc. 


LES GRANDS 

AUTEURS 



William Gosset (1876-1937) 

Les lois de probabilité usuelles portent soit un nom qui rappelle leurs principales pro¬ 
priétés statistiques (loi exponentielle, loi uniforme, etc.), soit le nom des mathéma¬ 
ticiens qui les ont inventées (loi de Laplace-Gauss, loi de Bernoulli, loi de Poisson, 
etc.). La loi de Student fait figure d'exception : ce nom ne fait référence à aucune 
propriété particulière et il n'existe pas de madame ou de monsieur Student. Cette loi 
fut en fait découverte en 1908 par un statisticien du nom de William Gosset qui 
travaillait à l'époque pour la brasserie Guinness à Dublin. 

Dans le but de déterminer une méthode de sélection des meilleures variétés d'orge, 
il inventa un test statistique (dit test t) et détermina la loi de la statistique de ce 
test (► chapitre 1 1). Mais le dirigeant de la société Guinness avait imposé à tous ses 
employés de ne jamais rien publier, quel que fut le sujet, afin de garder les secrets 
de fabrication de la brasserie. Il fit toutefois une exception pour William Gosset en lui 
demandant de prendre un pseudonyme. Le statisticien choisit alors le nom de Student 
et c'est ainsi que fut baptisée la loi de Student. ■ 


1 L'utilisation d'une majuscule signifie que le nom de la loi correspond au nom de son découvreur. Par 
exemple, la loi de Poisson fait référence au mathématicien français Denis Poisson (1781-1840). 

2 Ces abréviations sont souvent notées avec une police de type calligraphique, P , N, T . etc. 
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H Lois de probabil ité 

usuelles 


Plan 

il Lois usuelles discrètes. 186 

H Lois usuelles continues . 199 


Pré-requis 

Connaître la notion de variable aléatoire ( chapitre 6). 

Objectifs 

Présenter les principales lois usuelles. 

Savoir lire les tables statistiques des principales lois usuelles. 

-> Savoir calculer une probabilité pour les principales lois usuelles. 
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D ans ce chapitre, nous présenterons les principales propriétés de certaines lois 
usuelles discrètes ou continues : fonction de densité ou fonction de masse, 
fonction de répartition, quantile, fonction génératrice des moments, moments 
remarquables, etc. Aucune démonstration ne sera présentée puisque celles-ci peuvent 
être retrouvées à partir des principes généraux présentés dans le chapitre 6. Nous in¬ 
sisterons plutôt sur le contexte d’application de ces lois. 


D Lois usuelles discrètes 


1.1 


Loi uniforme discrète 


La loi uniforme discrète est une loi de probabilité définie sur un support fini pour 
laquelle toutes les réalisations sont équiprobables. Les exemples typiques d’applica¬ 
tion de cette loi sont ceux du lancer d’un dé parfaitement équilibré, du tirage d’une 
carte au hasard ou du tirage d’un numéro au hasard dans une loterie. 


1 . 1.1 


Fonction de masse et fonction de répartition 


Péfinjtion?.1 

La variable aléatoire discrète X suit une loi uniforme discrète sur le support fini 
X (O) = {xi. x n }, si sa fonction de masse est définie par : 

fx (x) = Pr (X = jc) = - VxeX(Q) (7.1) 

n 


On vérifie que toutes les réalisations ont la même probabilité : c’est la pro¬ 
priété d 'équiprobabilité qui caractérise la loi uniforme. Notons que les réalisations 
peuvent être quantitatives, c’est-à-dire correspondre à des nombres (par exemple si 
X (Q) = {1,2,3,4,5,6) dans le cas d’un lancer de dé). Elles peuvent être aussi qualita¬ 
tives (si elles ne sont pas des nombres), par exemple si X (Q) = {« valet », « dame », 
« roi »} dans le cas le cas d’un jeu de cartes à trois cartes. Dans tous les cas, toutes ces 
réalisations ont la même probabilité de survenue. 

Afin de simplifier les notations, nous allons considérer le cas où la variable X est 
définie sur un ensemble d’entiers consécutifs X(Q) = {a,a + 1 - 1,/?} avec 

n = b - a + 1. Dans ce cas, la fonction de masse devient : 

fx (x) = Pr (X = x) = - -'-- (7.2) 

b - a + 1 

Exemple 

Considérons une variable aléatoire X distribuée selon une loi uniforme discrète sur 

X(L1) = {1___ 10}, sa fonction de masse est définie par fx(x) = 1/10, Vx e X(Q.). Toutes 

les réalisations ont la même probabilité. 
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Définition 7.2 


Si la variable aléatoire X admet une loi uniforme 
1 - 1,/?}, sa fonction de répartition Fx(x) 

Vx € 

I 0 

si x < 

I y — n 4- I 

F x (x) = 


b — a + 
1 


si a < 
si x > 


discrète sur X (fl) = {a,a + 
= Pr (X < x) est définie par 


a 

x < b (7.3) 

b 
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Rappelons qu’une fonction de répartition est toujours définie sur R, y compris dans 
le cas d’une variable aléatoire discrète (► chapitre 6). Cette fonction de répartition se 
présente sous la forme de marches d’escalier sur le segment [a,b], la « hauteur» des 
marches étant égale à 1 /(b - a + 1), c’est-à-dire 1/10 dans le cas de notre exemple. 


1 . 1.2 


Moments 


La fonction génératrice des moments de la loi uniforme discrète sur le support X (fl) = 
{a,...,bj est égale à : 

/ v b-a +1 

M x ( t ) = C * P ü X V exp (i x /) Vf e R (7.4) 

b - a + 1 x-i 

1=1 

De cette fonction génératrice, on peut dériver l’espérance et la variance. 


PlQRliëlÉ 

Espérance et variance de la loi uniforme discrète 

Si X admet une loi uniforme discrète sur X (O) = [a,a + 1 ,...,b 


1 ,b), alors : 


E(X) = 


a + b 


'( X) = 


(b-a+lY-\ 

12 


(7.5) 


1.2 


Loi de Bernoulli 


La loi de Bernoulli, du nom du mathématicien suisse Jacques Bernoulli (1654-1705), 
est une loi de probabilité discrète définie sur un support fini comportant deux réali¬ 
sations. C’est la loi que l’on utilise pour représenter des variables aléatoires dichoto¬ 
miques ou binaires, c’est-à-dire à deux modalités. 

Exemple 

La loi de Bernoulli peut être appliquée sur des supports du type X (fl) = |« pair », « impair » j, 

X (fl) = )« succès », « échec ») ou X (fl) = {10,35}. 


Ces trois exemples montrent que la loi de Bernoulli peut être appliquée à des va¬ 
riables quantitatives ou à des variables qualitatives. Toutefois, il est toujours possible 
d’exprimer une variable dichotomique qualitative sous la forme d’une variable quan¬ 
titative en utilisant un codage (a,b) e R 2 . Par exemple, on pose X = 2 si « succès » 
et X = 3 si « échec ». Il existe bien évidemment une infinité de codages (a,b) pos¬ 
sibles. Par convention, on utilise toujours le codage binaire (0,1). Ainsi, quel que soit 
le problème modélisé (quantitatif ou qualitatif), on considère l’univers des réalisations 
X(O) = {0,1}- 
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1 . 2.1 


Fonction de masse et fonction de répartition 


DàümiiQ.Q-L3 


La variable aléatoire discrète X suit une loi de Bernoulli si sa fonction de masse 
est définie par : 


f x (x) = Pr(X = x) = p x ([-p)'- x Vjc e X(O) = {0,1} (7.6) 

où le paramètre p est un réel vérifiant p e ]0,1[. 


Si X suit une loi de Bernoulli de paramètre p, alors on note X~Bernoulli(p) ou 
Bern(p). Le paramètre p, appelé probabilité de succès , correspond à la probabilité 
que X prenne une réalisation égale à 1, i.e. Pr(X = 1) = p. 

Définition 7.4 

Si la variable aléatoire X admet une loi de Bernoulli de paramètre p e ]0,1 [, sa 
fonction de répartition F x (x) = Pr(X < x) est définie par Vx € R : 

| 0 si x < 0 

F x (x) = l 1 - p si 0 < x < 1 (7.7) 

Il si x > 1 


Comme pour toute variable aléatoire discrète, la fonction de répartition de la loi de 
Bernoulli se présente sous la forme d’une fonction en marches d’escalier. 


1.2.2 


Moments 


La fonction génératrice des moments de la loi de Bernoulli(p) est définie par : 

M x (t) = (l - p) + pexp(t) Vf e R (7.8) 


De cette fonction génératrice, on peut dériver l’espérance et la variance. 

Prop riété 

Espérance et variance de la loi de Bernoulli 

Si X admet une loi de Bernoulli de paramètre p e ]0,1 [, alors : 

E(X) = p Y(X) = p(l-p) (7.9) 


On remarque que les contraintes sur la probabilité de succès p V 0 et p t 1 ga¬ 
rantissent que la variance de la variable X soit non nulle. De plus, c’est l’utilisation 
d’un codage (0,1) pour représenter les variables dichotomiques qui permet d’obtenir 
l’égalité entre l’espérance de la variable X et la probabilité de succès : 

E (X) = p x \ + ( \ - p) x 0 = p (7.10) 


3 La valeur 1 est supposée coder le « succès » d'une expérience. Par exemple on code 1 si « pile » et 0 si 
« face » si l’on s’intéresse au résultat « pile » dans le cadre d'un lancer de pièce. 
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1.3 


Loi binomiale 


La loi binomiale est une loi de probabilité discrète définie sur le support fini 

X (Q) = {0,1. n}. Cette loi correspond à une expérience aléatoire dans laquelle on 

répète n fois de manière indépendante une expérience de Bernoulli avec une probabi¬ 
lité de succès égale à p. On compte alors le nombre de succès, c’est-à-dire le nombre 
de fois où la réalisation de la variable de Bernoulli est égale à 1. Le nombre total 
de succès, noté X, est une variable aléatoire admettant une distribution binomiale de 
paramètres n et p, notée : 

X ~ S (n,p) (7.11) 

Exemple 

Le nombre de résultats « face » apparus lors de n lancers d’une pièce parfaitement équilibrée 
suit une loi '£ (n, 1/2). Le nombre de boules rouges apparues au cours de n tirages avec remise 
dans une urne contenant 15 boules dont 5 boules rouges suit une loi £(n, 1/3). 


1.3.1 1 Fonction de masse et fonction de répartition 




La variable aléatoire discrète X définie sur X (fi) = {(),...,»} suit une loi binomiale 
B ( n,p ) si sa fonction de masse est définie par : 

fx « = Pr (X = x) = | " J p x ( 1 - p)"'* Vx 6 X (fi) (7.12) 

avec p € JO, 1 [ et n e N*. 


Le paramètre p correspond à la probabilité de succès des épreuves de Bernoulli, il est 
donc compris entre 0 et 1 exclus. Le paramètre n correspond au nombre de répétitions 
de l’épreuve de Bernoulli, c’est donc un entier non nul. La fonction de masse de la loi 
binomiale dépend du nombre de combinaisons de x éléments parmi n. Ce nombre de 
combinaisons, parfois noté C x (prononcer « a parmi n »), est égal à : 



n ! 

a! (n - a)! 


(7.13) 


où le symbole « ! » correspond à la factorielle . 


Exemple 

Soit X une variable aléatoire discrète définie sur X (f2) = {0,1,2,3,41 et telle que X ~ 
S (4,1/5). On obtient alors : 

Pr (X = 0) = x 0,2° x ( 1 - 0,2) 4 -° = 0,8 4 = 0,4096 (7.14) 

0! x 4! 

Pr(X = 1)= - 4! - x 0,2' x ( 1 - 0,2) 4-1 =4x0,2x0,512 = 0,4096 (7.15) 

11x3! 

Pr (X = 2) = ! x 0,2 2 x ( 1 - 0,2) 4 " 2 = 6 x 0,04 x 0,64 = 0,1536 (7.16) 


4 Rappelons que la factorielle kl d’un entier naturel k est le produit des nombres entiers strictement positifs 
inférieurs ou égaux à k. i.e. k x (k — I) x ... x I. Par exemple, 3! = 3 x 2 x 1. 
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Rappelons que la combinaison vérifie les propriétés suivantes : 



(7.17) 

(7.18) 


PimriéM 

Loi binomiale 

Étant données les propriétés de la combinaison, on en déduit que si X ~ 
3 (n,p) alors : 

Pr (X = 0) = (1 - pf Pr (X = n) = p" (7.19) 

Si X ~ 3(n,p) et si Y ~ 3 (n, I - p) alors Vk e {0,...,n} : 

Pr (X = k) = Pr (Y = 1 - k) = | ” J p k ( I - p) n ~ k (7.20) 


Définition 7.6 

Si la variable aléatoire X admet une loi binomiale 3 (n,p ), sa fonction de répar¬ 
tition Fy (x) = Pr (X < x) est définie par Vx € R : 

F x (x) = 0 si x < 0 (7.21) 

U'J / X 


Fx (x)= HJ // (1 - pf~ k si 0 < x < n (7.22) 

k =0 ' ' 

Fx (x) = 1 si x > n (7.23) 

où |_xj désigne le plus grand entier inférieur ou égal à x. 


Exemple 

Soit X une variable aléatoire discrète définie sur X(f2) = (0,1,2,3,4} et telle que X ~ 
3 (4 ; 0,2), alors : 

tu 

F x (l) = ^]p r (X = À:) = Pr(X = 0) + Pr(X= 1) = 0,8192 (7.24) 

*=o 

puisque |.1J = 1. De la même façon : 

L1.58J 1 

F* (1,58)= Yj p r (X = k) = Y Pr(X = fc) = F x (1) = 0,8192 (7.25) 

k=0 k =0 

puisque LÉ58J = 1. 

On comprend aisément que le calcul de Fx (x) soit relativement fastidieux notamment 
lorsque x et/ou n sont grands. C’est pourquoi lorsque l’on souhaite obtenir des proba¬ 
bilités cumulées d’une loi binomiale, on utilise soit les fonctions préprogrammées des 
logiciels de statistique ou des tableurs (► En pratique : la loi binomiale sous Excel), 
soit des tables statistiques de la loi binomiale. Plusieurs tables de la loi binomiale 

5 L’opérateur LxJ est appelée \efloor (étage en français). Par exemple L1.08J = I et|.IJ= 1. 
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figurent en annexe de cet ouvrage : chaque table correspond à une valeur de n (n =10, 
n = 20, n = 25 et n = 50). Pour chaque table sont reportées différentes valeurs de la 
probabilité p (de 0,05 à 0,30). Sur les lignes de chaque table figure une valeur k va¬ 
riant de 0 à n. Pour une valeur de n (une table), une valeur de p (colonne) et une valeur 
de k (ligne), on trouve la probabilité cumulée Pr {X < k) associée à la loi 23 (n,p). 

La figure 7.1 représente les fonctions de masse et les fonctions de répartition de trois 
exemples de lois binomiales c £(n,p) obtenues à partir d’un logiciel statistique. On 
vérifie que la fonction de masse Pr (X = x) n’est définie que pour des valeurs de x 
égales à 0La fonction de répartition est au contraire définie pour toute valeur 
réelle et se présente sous la forme de plateaux ou de marches d’escalier. 
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▲ Figure 7.1 Exemple de fonctions de masse et de répartition de lois binomiales 


EN PRATIQUE 

La loi binomiale sous Excel 


Les fonctions de masse et de répartition de la loi 
binomiale 3 (n ,p ) sont programmées dans tous les 
logiciels de statistique et d’économétrie et dans la 
plupart des tableurs. Par exemple sous le tableur 
Excel, ces fonctions peuvent être appelées en sui¬ 
vant les syntaxes suivantes : 

f x (x) : LOI.BTNOMIALE(jr,»,p,0) 

F x {x) : LOI.BINOMIALE(x,/ 2 ,p,l) 


Pour toutes les lois discrètes ou continues, on uti¬ 
lise sous Excel le même type de syntaxe en modi¬ 
fiant bien évidemment le nom de la loi ainsi que la 
liste des paramètres déclarés. 

Le dernier paramètre de la fonction (0 ou I ) sert à 
renvoyer soit la fonction de masse (ou de densité) 
pour une valeur 0, soit la fonction de répartition 
pour une valeur 1. 
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Moments 

La fonction génératrice des moments de la loi binomiale B ( n,p ) est définie par : 

M x (t) = ((1 - p) + p exp (t)) n Vr € R (7.26) 

On vérifie que la fonction génératrice des moments d’une loi B ( n,p ) correspond à la 
fonction génératrice des moments d’une loi de Bernoulli, élevée à la puissance n. De 
cette fonction génératrice, on peut notamment dériver l’espérance et la variance de la 
loi binomiale. 

Propriété 

Espérance et variance de la loi binomiale 

Si X admet une loi binomiale B (n,p), alors : 

E (X) = np V (X) = np (1 — p) (7.27) 

On constate que l’espérance et la variance d’une loi binomiale B(n,p) sont égales à 
l’espérance et la variance d’une loi de Bernoulli multipliées paru. 

Autres propriétés 

PrQpxiité 

Somme de variables de Bernoulli indépendantes 

Soient Z\,...,Z n des variables de Bernoulli(p) indépendantes avec p € ]0,1[, alors : 

n 

YjZi~!B(n,p) (7.28) 

i=i 

Cette propriété implique que la loi binomiale est additive : la somme de deux variables 
indépendantes distribuées selon des lois binomiales de même probabilité de succès 
suit, elle-aussi, une loi binomiale. 

Propriété 

Additivité de la loi binomiale 

Soient X et Y deux variables aléatoires discrètes indépendantes telles que X ~ 
B ( n,p) et Y ~ B ( m,p ), alors 

X+ Y~B(n + m,p) (7.29) 

Même si, à ce stade du chapitre, nous n’avons pas encore présenté la loi normale 
(► section 2.3), il convient de mentionner un résultat très souvent employé concernant 
l’approximation de la loi binomiale par la loi normale sous certaines conditions sur 
les paramètres n et p. Lorsque n est suffisamment grand, si X ~ B (, n,p ) alors : 

X k U ( np,np ( 1 - p)) (7.30) 

où le symbole « signifie « approximativement distribué selon » et le symbole N dé¬ 
signe la loi normale. Cette approximation continue est d’autant meilleure que n est 
grand et que la probabilité p est éloignée des valeurs extrêmes 0 et 1. Il existe plu¬ 
sieurs règles alternatives sur le couple (p,n) pour savoir si l’approximation par la loi 
normale est adaptée ou non. Nous en proposons une assez simple. 


1.3.3 


1.3.2 
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ProELLiété 

Approximation par la loi normale 

Soit X une variable aléatoire telle que X ~ ( B ( n,p ). Si n > 5 et si : 


1 


f 


\ 

1 -p 

p 

U 

p 

vi-pj 


<0,3 


(7.31) 


alors l’approximation de la loi binomiale par la loi normale peut être appliquée : 

X « N (np,np( 1 - p)) (7.32) 


1.4 


Loi géométrique 


La loi géométrique est une loi de probabilité discrète pouvant être définie soit sur 
l’ensemble des entiers N, soit sur l'ensemble des entiers non nuis N*. Lorsqu’elle est 
définie sur N*, la loi géométrique de paramètre p correspond à l’expérience aléatoire 
suivante. On répète de manière indépendante une expérience de Bernoulli avec une 
probabilité de succès égale à p jusqu’au premier succès. Soit X la variable qui cor¬ 
respond au rang du premier succès : ce rang est nécessairement supérieur ou égal à 1 
et inférieur ou égal à n, donc X e X (Q) = (1,2,La variable X admet une 
distribution géométrique de paramètre p notée : 

X ~ Geom(p) ou X~@(p) (7.33) 


Lorsqu’elle est définie sur N, la loi géométrique correspond à la distribution du 
nombre d’échecs Y = X - 1 avant le premier succès. Le nombre d’échecs peut 
être égal à 0 en cas de réussite à la première expérience de Bernoulli. La variable 

Y e Y (O) = {0,1.n,...} est distribuée selon une loi géométrique de paramètre p, 

notée de la même façon Y ~ Q (p). Tl convient donc de faire attention au support de la 
loi géométrique afin d’éviter les confusions. 


1.4.1 


Fonction de masse et fonction de répartition 


Définition 7.7 

La variable aléatoire discrète X définie sur X (Q) = N suit une loi géométrique 
Q ( p ) si sa fonction de masse est définie par : 

/x(jc) = Pr(X = *) = (! -p) x p VreN (7.34) 


Si cette variable est définie sur X (Q) = N*, sa fonction de masse devient : 

fx (jc) = Pr (X = x) = (1 - p)*-' p Vx = N* (7.35) 

où la probabilité de succès p est un réel vérifiant p € ]0,1 ]. On remarque que la loi 
géométrique peut être définie pour une probabilité de succès p égale à 1, niais pas 
pour une probabilité nulle. 
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fiéüflülfln .7*8 

Si la variable aléatoire X admet une loi géométrique Q(p) sur X (il) = 
fonction de répartition Fx (x) = Pr {X < x) est définie par Vx € R : 


sa 


/O si x < 0 

FxiX) \ 1 - (1 - p) w+I si x > 0 


(7.36) 


Si cette variable est définie sur sur X (il) = N*, sa fonction de répartition devient : 

0 si x < 1 

1 - ( 1 - p) LjrJ si x > 1 

où |_vj désigne le plus grand entier inférieur ou égal à x. 


Fx (*) = 


(7.37) 


Exemple 

Soit Y une variable aléatoire discrète définie sur Y (Q) = N telle que X ~ (7(0,10), alors : 

Pr(X< 1) = Fx (1) = 1 -0 -0,1) LIJ+1 = 1 -0,9 2 = 0,19 (7.38) 

Pr(X< 1,2) = Fx (1,2) = 1 -(1 -0,1) LUJ+1 = I -0,9 2 = 0,19 (7.39) 


Pour les deux définitions de la fonction de répartition on vérifie toujours que 
limFx (x) = 1. 

JC—>oo 

La figure 7.2 représente les fonctions de masse et de répartition de trois exemples 
de lois géométriques Q(p) définies sur N pour des probabilités de succès p = 0,1, 
p = 0,5 et p = 0,8. De façon générale, la fonction de masse d’une loi géométrique est 
décroissante, puisque par exemple pour X (Q) = N, on a Pr (X = 0) = p, Pr (X = 1 ) = 
pi 1 - p), Pr(X = 2) = p{\ - p) 2 , etc. 
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Fonction de masse G(0,5) 


- 

Fonction de masse G(0,8) 

- 

* 


.. 

1 * i * é * * 

% Ÿ ** * * * * 



0 2 4 6 8 10 12 14 

X 


1,0 - 
'x 

tr o,8 
0 , 6 - 

’£ 

S. °' 4 ‘ 

>0» 

“ 0,2 - 


0 1 - 1 - L 

0 2 4 


- Répartition G(0,1) 

-Répartition G(0,5) 

Répartition G(0,8) 

6 8 10 12 14 


A Figure 7.2 Exemple de fonctions de masse et de répartition de lois géométriques 
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1.4.2 


Moments 


La fonction génératrice des moments de la loi Q ( p ) définie sur N est égale à : 

P 


M x (/) = 


Vre 


1 - (1 - p)exp(t) 

Dans le cas où la loi géométrique est définie sur N*, cette fonction devient : 

p exp (t) 


M x ( t ) = 


1 - ( 1 - p) exp (t) 


Vt< — ln (1 - p) 


(7.40) 


(7.41) 


De cette fonction génératrice, on peut notamment dériver l’espérance et la variance de 
la loi géométrique. 

PÇ O Ril é lé 

Espérance et variance de la loi géométrique 

Si X admet une loi géométrique Q (p) définie sur X (Q) = N alors : 

E(X) = V(X) = (7.42) 

P P 2 

Si cette loi est définie sur X (Q) = N* alors : 

E(X) = — V(X) = -!~^ (7.43) 

P P~ 


1.4.3 


Autres propriétés 


Comme sa loi continue équivalente, i.e. la loi exponentielle (► section 2.2), la loi géo¬ 
métrique possède la propriété d’être « sans mémoire ». L’idée est que lorsque l’on 
compte le nombre d’échecs avant un succès dans une répétition d’expériences indé¬ 
pendantes de Bernoulli, la probabilité conditionnelle de succès au k eme tirage ne dé¬ 
pend pas du nombre d’échecs préalables. Il n’y a pas de mémoire du nombre d’échecs 
(ou de succès). Cette propriété est parfois appelée propriété de Markov. 

EmadÉts 

Absence de mémoire 

Si la variable X suit une loi géométrique Q ( p ) alors pour tout (t,s) e R 2+ : 

Pr ( X > s + f| X > 0 = Pr (X > s) (7.44) 


Une autre propriété porte sur le lien entre la loi géométrique et la loi binomiale néga¬ 
tive. La loi binomiale négative ou loi de Pascal (du nom du philosophe et mathémati¬ 
cien français Biaise Pascal 1623-1662) correspond à la loi de probabilité de la variable 
représentant le nombre d’échecs avant l’obtention d’un nombre donné n > 1 de succès 
dans une expérience de Bernoulli de paramètre p. Par exemple, on compte le nombre 
de résultats « face » obtenus avant d’obtenir n = 3 fois le résultat positif « pile » (pas 
forcément consécutivement). Cette loi possède donc deux paramètres comme la loi 
binomiale, n et p. Mais attention, n désigne dans ce cas un nombre de succès donné et 
non pas le nombre de répétitions de l’expérience de Bernoulli. 
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On comprend d’après cette définition qu’une loi géométrique Q (p) définie sur N n’est 
rien d’autre qu’une loi binomiale négative de paramètres n = 1 et p. De façon générale, 
on montre le résultat suivant. 


Propriété 

Somme de lois géométriques indépendantes 

Si X\ ,...,X n sont des variables indépendantes distribuées selon une loi géométrique 

n 

Q(p) alors ^ X, suit une loi binomiale négative de paramètres n et p. 
i=i 


1.5 


Loi de Poisson 


La loi de Poisson, du nom du mathématicien français Denis Poisson (1781-1840), est 
une loi de probabilité discrète définie sur l’ensemble des entiers N. Cette loi est no¬ 
tamment utilisée pour représenter un nombre d’événements se produisant dans un laps 
de temps donné. Dit autrement, c’est une loi permettant de modéliser des variables 
de comptage. Elle est généralement utilisée pour modéliser les phénomènes d’occu¬ 
rence rare (► En pratique : une utilisation célèbre de la loi de Poisson) : par exemple 
le nombre de dépôts de brevets sur une année, le nombre de voitures arrivant à un 
péage pendant un intervalle de quelques minutes, etc. 

La loi de Poisson dépend d’un paramètre réel strictement positif, noté A, qui comme 
nous le verrons, correspond à la fois à l’espérance et à la variance de la distribution. 
Si la variable X suit une loi de Poisson de paramètre A > 0 on note : 

X ~ Pois (A) ou X~P(A) (7.45) 


EN PRATIQUE 

Une utilisation célèbre de la loi de Poisson 


L’exemple le plus célèbre d’utilisation de la loi de 
Poisson est celui de l’étude de Ladislaus Bort- 
kiewicz (économiste et statisticien polonais, 1 868- 
1931) consacrée aux... accidents de mules. Dans 
un ouvrage de 1908 intitulé La loi des petits 
nombres et consacré à la loi de Poisson, Ladislaus 
Bortkiewicz applique cette loi de probabilité pour 


modéliser le nombre d’accidents mortels dans l’ar¬ 
mée prussienne dus à des ruades de mules. Rap¬ 
pelons que les armées européennes de la fin du 
XIX e siècle utilisaient plusieurs centaines de mil¬ 
liers de mules ou de chevaux pour le transport des 
munitions et du ravitaillement. Mais les accidents 
mortels restaient heureusement bien rares... 


1.5.1 


Fonction de masse et fonction de répartition 


Définition 7.9 

La variable aléatoire discrète X définie sur X (D) = N suit une loi de Poisson V (d) 
avec A € R + , si sa fonction de masse est définie par : 

Sx (x) = Pr (X = x)= Vx e N (7.46) 

X! 
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Chapitre 7 Lois de probabilité usuelles 


Exemple 

Soit Y une variable aléatoire discrète définie sur Y (O) = N telle que X ~ V (0,2). alors : 

Pr {X = 0) = 0,2 xe ^P<-°’ 2 > = exp ( _ 0|2 ) = 0,8187 (7.47) 


Pr(X= l) = 


0 ! 

0,2' X exp (-0,2) 

Ü 


= 0,2 x exp (-0,2) = 0,1637 


Pr(X = 2) = 


0,2 2 x exp (-0,2) _ 0,04 
2 ! " ~ 


x exp (-0,2) = 0,0164 


(7.48) 

(7.49) 


Définition 7.10 

Si la variable aléatoire X admet une loi P (A) sur X (H) = N, sa fonction de 
répartition F x (x) = Pr(X < x) est définie VxeR par F x (x) = 0, si x < 0 et : 


UJ 


UJ 


F x (x) = J^Pr(X = i) = Y J 


A 1 exp ( -A ) 


il 


= Vx > 0 


(7.50) 


/=() i=0 

où [xj désigne le plus grand entier inférieur ou égal à x. 


Exemple 

Soit Y une variable aléatoire discrète définie sur Y (Q) = N telle que X ~ V (0,2). Calculons 


les probabilités Pr(X < 1) et Pr(X < 1,27). 

LU l 

F x (l) = Pr(X< 1) = J>r(X = /) = J>r(X = i) (7.51) 

i-0 i=0 

= Pr(X = 0) + Pr(X= 1) = 0,9824 (7.52) 

LI.27J I 

F x (1,27) = Pr(X < 1,27) =£prCY = i)-£ Pr(X = i) (7.53) 

i =0 i '=0 

= Pr(X = 0) + Pr(X= I) = F y ( 1 ) = 0,9824 (7.54) 


De la même façon que pour la loi binomiale, le calcul des probabilités cumulées F x (x) 
dans le cas de la loi de Poisson peut s’avérer fastidieux lorsque x est élevé. On uti¬ 
lise alors soit les fonctions des logiciels de statistique ou des tableurs (par exemple 
la fonction LOI.POISSON sous Excel), soit des tables statistiques de la loi de Pois¬ 
son. Plusieurs tables figurent en annexe de cet ouvrage pour différentes valeurs du 
paramètre A comprises entre 0,1 et 10. Pour chaque A sont affichées les probabilités 
cumulées Pr {X < x) obtenues pour différentes valeurs de x allant de 0 à 7 ou de 0 à 30 
suivant les cas. 

La figure 7.3 représente les fonctions de masse et les fonctions de répartition de trois 
exemples de lois de Poisson P(Â) pour des paramètres A = 1, A = 4 et A = 10. 
Comme pour toute variable aléatoire discrète, la fonction de répartition se présente 
sous la forme d'une fonction en marches d’escalier. 


6 II est aussi possible d’exprimer cette fonction de répartition en fonction de la fonction gamma incomplète 
(► section 2.3). 


197 


sigmakutub.blogspot.com 













Copyright © 2015 Dunod. 


Partie 2 Probabilités et variable aléatoire 
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A Figure 7.3 Exemple de fonctions de masse et de répartition de lois de Poisson 


1.5.2 


Moments 


La fonction génératrice des moments de la loi de Poisson P (A) est définie par : 

Mx (t) = exp (d (exp (r) - 1 )) Vf e R (7.55) 

De cette fonction génératrice, on peut dériver l’espérance et la variance. 

Em&tiiîë 

Espérance et variance de la loi de Poisson 

Si X admet une loi de Poisson de paramètre A > 0, alors : 

E(X) = d V(X) = A (7.56) 


La particularité de la loi de Poisson est que son espérance est égale à sa variance. 
Or, dans de nombreux cas pratiques de comptage on observe un phénomène de sur¬ 
dispersion ce qui signifie que la variance de la variable étudiée est supérieure à son 
espérance. Par conséquent, la loi de Poisson n’est pas adaptée dans ces cas. On pré¬ 
fère alors utiliser une loi binomiale négative ou une autre loi compatible avec la sur¬ 
dispersion. 
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1.5.3 


Autres propriétés 


La somme de variables de Poisson est distribuée selon une loi de Poisson. 


Propriété. 

Somme de lois de Poisson 

Si les variables X\,...,X n sont indépendantes et sont telles que X, ~ P (A/) avec 
Ai > 0 pour i = 1. n alors : 

n n 

^ Xi ~ P (A) avec A = A t (7.57) 
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Chapitre 7 Lois de probabilité usuelles 



Lois usuelles continues 


Wi Loi uniforme continue 

La loi uniforme continue est une loi de probabilité continue définie sur un intervalle 
[a,b] c R et caractérisée par une fonction de densité constante pour toutes les valeurs 
réelles x € \a,b]. Contrairement à la loi uniforme discrète, l’idée d’équiprobabilité 
de la loi uniforme continue ne se traduit pas au niveau de la probabilité d’une réali¬ 
sation particulière, puisque pour une loi continue la probabilité d’être en un point est 
nulle. Elle se traduit par le fait que tous les intervalles de même longueur inclus dans 
le support [a,b] ont la même probabilité. Si X suit une loi uniforme continue sur le 
segment [a,b], on note : 

x ~ % a , b] (7.58) 


2 . 1.1 


Fonction de densité et fonction de répartition 


Soient deux valeurs réelles a et b, telles que b > a. 

Ré.tiniiiaD-Z.JL1 

La variable aléatoire réelle X suit une loi uniforme continue sur le support 
X (£2) = [a,b] si sa fonction de densité est définie par : 

/x(x) = —VxeX(Q) (7.59) 

b — a 


Rappelons que fx (x) = 0 si x £ X (Q) = [a,b]. Dans le cas particulier où a = 0 et 

b = 1 , on parle de loi uniforme (continue) standard. 

Exemple 

Considérons une variable aléatoire X distribuée selon une loi uniforme continue sur X(Ll) = 
[0,20], sa fonction de densité est définie par f x (x) = 1/20, Vx e [0,20] et f x (x) = 0 si 
Vx t [0,20]. 


Définition 7.12 

Si la variable aléatoire X admet une loi uniforme continue sur X (fi) 
fonction de répartition F x (x) = Pr (X < x) est définie par Vx € R : 


F x (x) = 


0 

x - a 
b-a 


si x < a 
si a < x < b 


çi r h 


[a,b], sa 


(7.60) 


Exemple 

Soit X ~ e U\ o, 20 i> alors F x (5) = Pr(X < 5) = (5 - 0)/20 = 1/4. Inversement, le fractile 
d’ordre a = 0,25 est égal à F x ] (0,25) = 5. 


Pour illustration, la figure 7.4 représente les fonctions de densité et de répartition de 
la loi W[ 3 , 6 i pour des valeurs de x allant de 0 à 9. 
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A Figure 7.4 Fonctions de densité et de répartition de la loi uniforme continue 3 , 6) 


2.1.2 Moments 


La fonction génératrice des moments de la loi uniforme tl[ a ,b] est égale à : 

¥ , eR 

t(b-a) 

De cette fonction génératrice, on peut dériver l’espérance et la variance. 

Propriété 

Espérance et variance de la loi uniforme continue 

Si X admet une loi uniforme continue sur X (Q) = [a,b], alors : 


E (X) = 


a + b 


'(*) = 


(.b - aY 


(7.61) 


(7.62) 


Puisque la loi uniforme est symétrique par rapport à E (X), sa skewness est nulle. Sa 
kurtosis est égale à 1,8 indiquant que cette distribution est platykurtique : sa kurtosis 
est inférieure à celle de la loi normale, égale à 3. 

Propriété 

Skewness et kurtosis de la loi uniforme 

Si X ~ < U[ a ,b] alors : 


skewness = 


m E(X - E(X)) 3 ) 


P 


3/2 


¥ (X) 


3/2 


= 0 


kurtosis = 


P4 E (X - E (X)) 4 ) 9 


P2 


v(xr 


(7.63) 


(7.64) 
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Chapitre 7 Lois de probabilité usuelles 


2.1.3 


Autres propriétés 


La loi uniforme standard 'Wfo.i] est particulièrement utile pour générer des nombres 
au hasard de n’importe quelle distribution continue (loi normale, loi de Student, etc.). 
Ce résultat est dû à la propriété dite de transformation intégrale de probabilité ou 
propriété PIT (probability intégral transform). 

PmpriéJté 

PIT 

Soit Y une variable aléatoire continue admettant une fonction de répartition Fy (y) 
définie sur R. Alors, la variable aléatoire X = F y {Y) admet une distribution uni¬ 
forme standard : 

X = Fy(Y)~% 0 , i] (7.65) 


La propriété PIT est utilisée par tous les logiciels de statistique ou les tableurs pour gé¬ 
nérer un nombre au hasard y dans n’importe quelle distribution associée à la fonction 
de répartition Fy (y). Pour cela, on adopte la démarche suivante : 

1. On tire un nombre au hasard dans la loi uniforme standard, c’est-à-dire une réali¬ 
sation x d’une variable aléatoire X distribuée selon une loi 1l [ojp 

2. On cherche la valeur de y telle que Fy (y) = x. Par inversion de la fonction de 
répartition, il vient y = Fÿ 1 ( x ). 

Exemple 

Soit Y une variable aléatoire réelle telle que Fy(y ) = 1 - exp (—y). La variable aléatoire 
X = Fy [Y) = 1 - exp (-T) admet une distribution uniforme sur [0,1]. Par conséquent pour 
tirer un nombre au hasard dans la loi de Y , on commence par tirer un nombre au hasard dans 
la loi 'î/[o,u- Si par exemple on obtient une réalisation x = 0,2541, alors une réalisation y de 
Y est donnée par : 

y = Fÿ' (0,2541) = - ln ( 1 - 0,2541 ) = 0,2932 (7.66) 


WW .1 Loi exponentielle 

La loi exponentielle est une loi de probabilité continue définie sur des valeurs réelles 
positives. Cette loi correspond au temps mesuré entre des événements issus d’un pro¬ 
cessus de Poisson, i.e. un processus continu de comptage dans lequel les événements 
arrivent de façon continue et indépendamment les uns des autres avec une intensité 
constante. Tout comme sa loi discrète équivalente (la loi géométrique), une loi expo¬ 
nentielle permet de modéliser la durée de vie d’un phénomène sans mémoire. 

La fonction de densité de la loi exponentielle dépend d’un paramètre réel A stricte¬ 
ment positif, appelé intensité. Si X suit une loi exponentielle d’intensité A > 0 sur 
X (fi) = R + , on note : 

X~Sxp(A) (7.67) 
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Partie 2 Probabilités et variable aléatoire 


2.2.1 1 Fonction de densité et fonction de répartition 


Définition 7.13 


La variable aléatoire réelle X suit une loi exponentielle de paramètre A e R + sur 
le support X (Q) = R + si sa fonction de densité est définie par : 


fx (x) = d exp (-dx) Vx e Vx € R + (7.68) 


Définition 7.14 

Si la variable aléatoire X admet une loi exponentielle de paramètre A > 0 sur 
X (Q.) = R + , sa fonction de répartition Fx (x) = Pr(X < x) est définie par : 

Fx (x) = 1 - exp (-/Le) Vjc e R (7.69) 

La figure 7.5 représente les fonctions de densité et de répartition de trois exemples de 
lois exponentielles pour des paramètres A = 0,5, A = I et A = 1,5. On vérifie que la 
fonction de densité de la loi exponentielle est toujours strictement décroissante sur R + 
quelle que soit la valeur de A (► équation (7.68)). 



x 



A Figure 7.5 Fonctions de densité et de répartition de la loi exponentielle 


2.2.2 


Moments 


La fonction génératrice des moments de la loi Sxp (A) est égale à : 

Mx(0 = ( I - 

De cette fonction génératrice, on peut dériver l’espérance et la variance. 

Bmmété 

Espérance et variance de la loi exponentielle 

Si X suit une loi exponentielle de paramètre A > 0, alors : 

E(X)= { - V(X)=4 

A A* 


jj 


We 


(7.70) 


(7.71) 
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Chapitre 7 Lois de probabilité usuelles 


La loi exponentielle n’est pas symétrique par rapport à E(X), sa skewness est posi¬ 
tive ce qui implique que Pr(X > E(X)) > Pr(X < E(X)). Sa kurtosis est égale à 9 
indiquant que cette distribution est leptokurtique (► chapitre 6). 


Propriété 

Skewness et kurtosis de la loi exponentielle 

Si X ~ Bxp (4) alors : 


skewness = 


p 3 E (X - E(X)) 3 ) 


^2 


¥ (X) 


3/2 


= 2 


, _ . A4 E(X -E(X)) 4 ) n 

kurtosis = — =--- = 9 

¥ (X) 2 


(7.72) 

(7.73) 


2.2.3 


Autres propriétés 


Tout comme la loi géométrique, la loi exponentielle est une loi sans mémoire. Elle 
satisfait la propriété de Markov (► section 1 .4). 


2.3 


Loi normale 


La loi normale, ou loi de Laplace-Gauss , est une loi de probabilité continue définie 
sur l’ensemble des réels R. C’est sans conteste la loi de probabilité continue la plus 
utilisée, notamment en raison du théorème central limite que nous étudierons dans 
le chapitre 8. La densité de la loi normale dépend d’un paramètre de location (qui 
correspond à son espérance) noté p et d’un paramètre d’échelle (qui correspond à 
sa variance) noté cr 2 . Si une variable aléatoire X définie sur X (£2) = R, suit une loi 
normale de paramètres p et cr 2 , on note : 

X~N(p,cr 2 ) (7.74) 

Remarque : La loi normale est parfois notée sous la forme X ~ N ( p,cr ) où cr désigne 
l’écart-type de la distribution de X. Il convient de ne pas confondre les deux notations. 


2.3.1 


Fonction de densité et fonction de répartition 


Définition 7.15 


La variable aléatoire réelle X suit une loi normale d’espérance p et de variance cr 2 , 
notée N (p.cr 2 ), si sa fonction de densité est définie sur X (£2) = R par : 


fx(x) = 



Vx € R 


(7.75) 


avec p e R et cr e R + . 


Le symbole n renvoie au nombres égal à approximativement 3,1415. 

7 Du nom du mathématicien français Pierre-Simon Laplace (1749-1827) et du mathématicien allemand 
Cari Friedrich Gauss ( 1777-1855). 

8 II ne faut pas confondre la notation n de l'espérance (moment ordinaire d’ordre I, Le. m \) utilisée pour 
la loi normale et la notation des moments centrés d’ordre k, notés p k . 
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Propriété 

Loi normale 

Si la variable aléatoire réelle X suit une loi normale N [p,(r 2 ^ alors sa fonction de 
densité vérifie les propriétés suivantes : 

1 . lim f x (x) = lim f x (x) = 0. 

X —>+00 x—>—00 

2. f x (p + x) = fx (jj - x ), Vx e R. 

3. fx ( x ) atteint son maximum en x = p. 


La première propriété n’est pas propre à la loi normale. La seconde propriété signifie 
que la fonction de densité de la loi normale est symétrique par rapport à son espé¬ 
rance p. La troisième propriété implique que le mode de la distribution normale est 
égal à son espérance. Comme le montre la figure 7.7, la distribution normale est uni- 
modale, c’est-à-dire qu’elle ne possède qu’un seul mode (► chapitre 1). On rappelle 
enfin que comme pour toute fonction de densité, la densité de la loi normale intègre à 

X +OO 

fx (x) dx = 1. 

oo 

Parmi les lois normales générales, on distingue la loi normale centrée réduite ou loi 
normale standard, d’espérance nulle et de variance égale à 1. On admet (cf. proprié¬ 
tés) que : 

X~NU,o- 2 ) ^ 0,1) (7.76) 

V ' <T 

Par convention, la fonction de densité de la loi normale centrée réduite W(0,1) est 
notée f (x) (prononcer « phi de x »). 


Définition 7.16 


La variable aléatoire réelle X suit une loi normale centrée réduite A7 (0,1) si sa 
fonction de densité est définie par : 


<p(x) = 



Vx e R 


(7.77) 


On peut toujours exprimer la fonction de densité d’une loi N en fonction de la 

densité de la loi normale centrée réduite. En effet, si l’on note f^y- (x) la densité de la 
loi N (>u,cr 2 ) il vient : 

Oc) = % (^) Vx e R (7.78) 

Définition 7.1 Z 

Si la variable aléatoire réelle X admet une loi normale (V^/qtr 2 ), sa fonction de 
répartition F x (x) = Pr(X < x) est définie par Vx e R : 

f» « - £ a w * - £ (~ 2 my < 7 - 79 > 


Cette fonction de répartition n’a pas d’expression analytique (► chapitre 6). 
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Le fait que la fonction de répartition n’ait pas d’expression analytique signifie qu’elle 
ne s’exprime pas à partir de fonctions usuelles (log, exponentielle, etc.) mais qu’elle 
devient elle-même une fonction usuelle. Par conséquent, si l’on souhaite calculer une 
probabilité cumulée pour une loi normale on doit nécessairement recourir à une table 
statistique ou à un logiciel de statistique (par exemple la fonction LOI.NORMALE sous 
Excel). La table statistique fournie en annexe (► figure 7.6 pour un extrait) se réfère 
uniquement au cas particulier de la loi normale centrée réduite N (0,1 ). En effet, il 
est toujours possible d’exprimer les probabilités cumulées d’une loi normale générale 
N (>L/,tr 2 ) en fonction de celles de la loi )V(0,1). 

Définition 7.18 

La fonction de répartition de la loi normale centrée réduite N (0,1), notée 0 (.v) 
(prononcer « grand phi de x »), est définie par Vx € R : 

1 

y[2n 


<P(x) = C <f> (z) dz = f 

—OO %J — O 


exp|- T )û?z 


(7.80) 


Supposons que X ~ A((/./,cr 2 ) et que l’on veuille calculer F\(c) = Pr(X < c) où c 
est une valeur réelle. On peut alors exprimer cette probabilité cumulée à l’aide de la 
fonction de répartition 0 (.) de la loi N (0,1 ). 


F\ (c) = Pr {X < c) 


= Pr( 


X-p C-JI 


CT 


cr 


M^) 


(7.81) 


puisque la variable centrée réduite (X - p)/cr suit une loi normale centrée réduite. 


Exemple 

Soit X une variable aléatoire réelle telle que X ~ N (0,6 ; 4). Calculons la probabilité cumu¬ 
lée Pr(X < -0,5). 

E x (-0,5) = Pr(X<-0,5) = Pr|^-^ < j = fl(-Q,55) (7.82) 

Si l’on admet que <£(—0,55) = 0,2912 on obtient Pr(.Y < -0,5) = 0,2912. 


Comment calculer une probabilité cumulée pour une loi normale centrée réduite à 
partir de la table statistique de la figure 7.6 ? Cette table permet de déterminer la pro¬ 
babilité cumulée 0 (z) pour un certain nombre de valeurs réelles z. La valeur de z est 
reconstruite par addition des valeurs reportées en lignes (allant de 0 à 0,09 par pas 
de 0,01) et des valeurs reportées en colonne (allant de 0 à 2,9 par pas de 0,1). Par 
exemple, si l’on souhaite calculer la probabilité cumulée 0(1,02) on décompose la 
valeur 1,02 en une somme 1 + 0,02. En considérant la ligne correspondant à la valeur 
1 et la colonne correspondant à la valeur 0,02, on trouve à l’intersection la valeur de la 
probabilité cumulée 0(1,02) = 0,846136. Pour des valeurs de z allant de 3 à 4,5, un 
tableau spécifique (non reproduit sur la figure 7.6) permet de lire directement la valeur 
de la fonction de répartition. 

On constate que les réalisations z reportées dans la table de la figure 7.6 sont toutes 
positives. Dès lors, comment calculer une probabilité cumulée du type 0(-O,7) ? On 
utilise pour cela la propriété suivante. 
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Probabilités et variable aléatoire 


• 

0.00 

0,01 

0.02 

0.03 

0704 

0.05 

0.06 

0.07 

0,08 

0.09 

0.0 

0.500000 

0,503989 

0.507978 

0,511966 

0,515953 

0,519939 

0,523922 

0,527903 

0,531881 

0,535856 

0.1 

0.539828 

0,543795 

0,547758 

0,551717 

0,555670 

0,559618 

0,563559 

0,567495 

0,571424 

0,575345 

0.2 

0,579260 

0,583166 

0.587064 

0.590954 

0.594835 

0.598706 

0.602568 

0.606420 

0.610261 

0,614092 

0.3 

0,617911 

0,621720 

0,625516 

0,629300 

0,633072 

0,636831 

0.640576 

0,644309 

0,648027 

0,651732 

0.4 

0,655422 

0,659097 

0,662757 

0,666402 

0,670031 

0,673645 

0,677242 

0,680822 

0,684386 

0,687933 

0.5 

0,691462 

0,694974 

0,698468 

0,701944 

0,705401 

0,708840 

0,712260 

0.715661 

0,719043 

0,722405 

0.6 

0,725747 

0,729069 

0,732371 

0,735653 

0,738914 

0,742154 

0,745373 

0.748571 

0,751748 

0,754903 

0.7 

0,758036 

0,761148 

0,764238 

0,767305 

0,770350 

0,773373 

0,776373 

0,779350 

0,782305 

0,785236 

0.8 

0,788145 

0,791030 

0,793892 

0,796731 

0,799546 

0,802337 

0,805105 

0,807850 

0,810570 

0,813267 

0.9 

0,815940 

0,818589 

0,821214 

0,823814 

0,826391 

0,828944 

0,831472 

0,833977 

0,836457 

0,838913 

1.0 

0,841345 

0,843752 

0,846136 

0.848495 

0,850830 

0,853141 

0,855428 

0.857690 

0,859929 

0,862143 

1.1 

0,864334 

0,866500 

0,868643 

0,870762 

0,872857 

0.874928 

0,876976 

0,879000 

0,881000 

0,882977 

1.2 

0.884930 

0,886861 

0,888768 

0,890651 

0,892512 

0.894350 

0,896165 

0,897958 

0,899727 

0,901475 

1.3 

0,903200 

0,904902 

0,906582 

0.908241 

0,909877 

0,911492 

0,913085 

0.914657 

0,916207 

0,917736 

1.4 

0,919243 

0.920730 

0,922196 

0,923641 

0,925066 

0,926471 

0,927855 

0,929219 

0,930563 

0,931888 

1.5 

0,933193 

0.934478 

0,935745 

0,936992 

0,938220 

0.939429 

0,940620 

0.941792 

0.942947 

0,944083 

1.6 

0,945201 

0,946301 

0,947384 

0,948449 

0.949497 

0,950529 

0,951543 

0,952540 

0,953521 

0,954486 

1.7 

0,955435 

0,956367 

0.957284 

0,958185 

0,959070 

0.959941 

0,960796 

0,961636 

0.962462 

0,963273 

1.8 

0.964070 

0.964852 

0.965620 

0,966375 

0.967116 

0.967843 

0.968557 

0,969258 

0.969946 

0,970621 

1.9 

0,971283 

0,971933 

0,972571 

0,973197 

0,973810 

0,974412 

0,975002 

0.975581 

0,976148 

0,976705 

2.0 

0,977250 

0,977784 

0,978308 

0.978822 

0,979325 

0,979818 

0.980301 

0,980774 

0,981237 

0.981691 

2.1 

0,982136 

0.982571 

0,982997 

0.983414 

0,983823 

0,984222 

0,984614 

0,984997 

0,985371 

0,985738 

2.2 

0,986097 

0,986447 

0,986791 

0,987126 

0,987455 

0,987776 

0,988089 

0.988396 

0.988696 

0,988989 

2,3 

0,989276 

0,989556 

0.989830 

0,990097 

0,990358 

0,990613 

0.990863 

0,991106 

0,991344 

0,991576 

2.4 

0,991802 

0,992024 

0,992240 

0,992451 

0,992656 

0,992857 

0,993053 

0.993244 

0,993431 

0,993613 

2.5 

0,993790 

0,993963 

0,994132 

0,994297 

0.994457 

0.994614 

0.994766 

0.994915 

0.995060 

0,995201 

2.6 

0,995339 

0.995473 

0.995604 

0.995731 

0.995855 

0,995975 

0,996093 

0.996207 

0,996319 

0.996427 

2.7 

0,996533 

0,996636 

0,996736 

0,996833 

0,996928 

0,997020 

0,997110 

0,997197 

0,997282 

0,997365 

2.8 

0,997445 

0.997523 

0,997599 

0.997673 

0,997744 

0,997814 

0,997882 

0.997948 

0,998012 

0,998074 

2.9 

0,998134 

0.998193 

0,998250 

0,998305 

0.998359 

0,998411 

0,998462 

0.998511 

0,998559 

0,998605 


▲ Figure 7.6 Extrait de la table de la loi normale centrée réduite 


Propriété 

Fonction de répartition de la loi normale centrée réduite 

Puisque la densité de la loi normale centrée réduite N (0,1) est symétrique par rap¬ 
port à son espérance égale à 0, on a : 

<Z>(0) = 0,5 (7.83) 

0 (—x) = 1 - 0 (x) VxeR (7.84) 


Exemple 

On suppose que X ~ N (0,6 ; 4), déterminons les probabilités Pr(X > 1,86) et 
Pr (X < -0,22) à partir de la table statistique de la loi normale centrée réduite. 

Pr(X> 1,86) = 1 -Pr(X< 1,86) (7.85) 


= 1 - Pr 


X - 0,6 1,86-0 


") 


V4 V4 

= 1 - 0(0,63) = 1 - 0,735653 = 0,264347 


(X — 0,6 -0,22-0,6 

Pr(X < -0,22) = Prl-< 


V4 V4 

$(-0,41) = 1 - $(0,41) 

I - 0,659097 = 0,340903 


(7.86) 

(7.87) 

(7.88) 

(7.89) 

(7.90) 
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Chapitre 7 Lois de probabilité usuelles 


La figure 7.7 représente les fonctions de densité et de répartition de trois exemples 
de lois normales 7V(yT,cr 2 ) pour les couples (/j.ct - 2 ) = (0 ; 0,2), (0,1) et (-2 ; 0,5). 
On observe que lorsque l’espérance p varie, cela déplace la fonction de densité vers 
la gauche ou vers la droite sans changer sa forme. C’est pourquoi le paramètre p est 
un paramètre de location. En revanche, le fait de modifier la variance cr 2 déforme 
l’allure de la densité : plus la variance est importante, plus la fonction de densité 
s’aplatit. On dit que la variance est un paramètre d’échelle. 



x 



Figure 7.7 Exemple de fonctions de densité et de répartition de lois normales 




2.3.2 I Quantiles de la loi normale 


Les quantiles de la loi normale s’obtiennent par inversion de la fonction de réparti¬ 
tion (► chapitre 6). Rappelons que le quantile d’ordre a e [0,1], noté Q„ ou F x (a), 
est la réalisation telle que Pr(x < F x ' (cr)) = F X (F X ] (»)) = tr. Notons que l'on peut 
toujours obtenir les quantiles d’une loi normale N (p,<r 2 ) à partir des quantiles d’une 
loi normale centrée réduite, notés 0~' (cr). En effet, si l’on suppose que X ~ N (p,<x 2 ) 
et que l’on note F x ' (a) le quantile d’ordre a de cette loi, par définition : 


Pr(x < F x ' (a)) = Pr 


i 

< 

a cr 


X~n F x '(a)~iu 


< 


= a 


Sachant que (X - n)lcr suit une loi normale centrée réduite, il vient : 

7 x (or)-/i ' 1 


0 


cr 


= a 


En appliquant la fonction <f> (.) aux deux membres de cette égalité, il vient 


0 1 | 0 


F' 


CT 


= 0-' (a) 


ou encore : 


F J (cr) - p 


rr 


= 0~' (a) 


(7.91) 


(7.92) 


(7.93) 


(7.94) 
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Partie 2 Probabilités et variable aléatoire 


Profité 

Quantiles 

On peut toujours exprimer le quantile F^ ] (a) d’une loi Af(q,a- 2 ) en fonction du 
quantile 0 _l (a) de la loi normale centrée réduite comme : 

F~ x ' (a) = p + a®”' (a) Va e [0,1] (7.95) 

Exemple 

Soit X ~ N (0,6 ; 4). Déterminons le quantile d’ordre a = 10 % de cette loi en supposant 
que 0 ' (0,1) = -1,2816. D’après la relation de l’équation (7.95), il vient : 

Fÿ' (0,1) = 0,6+ V4x 0(0,1) = 0,6+ V4 x (-1,2816) = -1,9632 
Par définition si X ~ TV (0,6 ; 4) alors Pr(X < -1,9632) = 0,1. 


Comment déterminer les quantiles de la loi normale centrée réduite ? Puisque la fonc¬ 
tion de répartition de cette loi n’a pas de forme analytique, sa fonction de répartition 
inverse 0~ ] (a) n’en a pas non plus. On doit donc recourir à des tables statistiques 
ou à des logiciels (par exemple la fonction LOI.NORMALE.INVERSE d'Excel). Il est 
possible d’utiliser la table de la fonction de répartition de la loi normale centrée ré¬ 
duite (► figure 7.6) pour retrouver les fractiles &~ l (a). Tout d’abord remarquons que 
les valeurs de cette table correspondent à des probabilités cumulées qui sont toutes 
supérieures à 0,5, puisque la fonction de répartition est évaluée pour des valeurs z > 0 
pour lesquelles 0 (z) > 0,5. Dès lors, deux cas de figure doivent être distingués suivant 
la valeur de la probabilité a. 

Premier cas. Si l’on cherche un quantile pour une probabilité a > 0,5, la lecture de ce 
quantile se fait directement. On cherche dans la table la valeur la plus proche de a (ou 
les valeurs encadrant a) et l’on reconstruit la valeur du quantile 0 [ (a) par addition 
des nombres figurant en en-tête de colonne et de ligne. Par exemple, si l’on cherche 
0 ] (0,95), les valeurs les plus proches de 0,95 figurant dans la table sont 0,949497 et 
0,950529. Ces valeurs correspondent respectivement à des réalisations égales à 1,64 
(1,6 + 0,04) et 1,65 ( 1 + 0,05). Le quantile à 95 % est donc compris entre 1,64 et 1,65. 

Deuxième cas. Si l’on cherche un quantile pour une probabilité a < 0,5, on utilise la 
propriété suivante. 

Emüüêîs 

Quantiles de la loi normale centrée réduite 

Puisque la densité de loi normale centrée réduite N (0,1) est symétrique par rapport 

à son espérance égale à 0, sa fonction de répartition inverse vérifie : 

0~ ] (0,5) = 0 

0~' ( a ) = -0~' (1 - a) Va 6 [0,1] (7.96) 


9 Pour une mesure plus précise des quantiles, on peut aussi utiliser des « tables de quantiles » de la loi 
normale centrée réduite. 
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Chapitre 7 Lois de probabilité usuelles 


Exemple 

Déterminons le quantile d’ordre a = 0,025 de la loi normale centrée réduite. Par définition 
0~' (0,025) = -0 1 (0,975). On cherche alors le quantile à 97,5 % dans la table de la li¬ 
gure 7.6 selon la méthode précédente. On trouve que ce quantile est compris entre 1,95 et 
1,96. Par conséquent, 0 ] (0,025) est compris entre -1,95 et —1,96. 

Appliquons à présent cette démarche pour déterminer les quantiles d’une loi normale 
générale N (p,<x 2 ). 

Exemple 

On suppose que X ~ N (0,6 ; 4), déterminons les quantiles F x ] (a) d’ordres a = 0,05 et 
a = 0,90. Nous savons que : 

Fÿ (0,05) = 0,6 + V5 x 0-' (0,05) (7.97) 

Sachant que 0 _i (0,05) = -0 _l (0,95), on cherche dans la table de la figure 7.6 la valeur 
la plus proche de 0,95. On trouve la probabilité 0,950529 associée à une réalisation de 1,65 
(1,6 + 0,05). Par conséquent 0” 1 (0,05) = -1,65. 

Fÿ (0,05) = 0,6 + 2 x (-1,65) = -2,70 (7.98) 

On obtient le quantile Fÿ 1 (0,90) par lecture directe de la table : 

F x ' (0,90) = 0,6 + V4 x 0“' (0,90) - 0,6 + 2 x 1,28 = 3,16 (7.99) 


o 
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2.3.3 


Moments 


La fonction génératrice des moments de la loi normale N est égale à : 


M x (t) = exp \fjt + 


cr 2 t 2 


W e 


(7.100) 


Par définition, l’espérance et la variance sont égales aux paramètres de la loi : 

E(X) = /i ¥ (X) = cr 2 (7.101) 

La loi normale est une distribution symétrique par rapport à E (X) et mesokurtique. 

Propriété 

Skewness et kurtosis de la loi normale 

Si X ~ N (p><7" 2 ) alors : 


Skewness 


Kurtosis 


_^3_ = E(X-EjX)Ÿ) 
$ 2 ¥ (XŸ 12 

A4 = E(X-E(2Q) 4 ) _ 
V(X) 2 


(7.102) 

(7.103) 
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Partie 2 Probabilités et variable aléatoire 


2.3.4 


Autres propriétés 


ProBOêîi 


Linéarité des lois normales 

Soit une variable aléatoire réelle X ~ N (^,rr 2 ) et soient deux constantes {a,b) e IR 2 , 
alors : 


a + bX ~ N (a + £>/i,/rcr 2 ) 


(7.104) 


Ainsi, la transformée linéaire d’une variable normalement distribuée suit une loi nor¬ 
male. Puisque l’espérance est un opérateur linéaire et la variance est un opérateur 
quadratique (► chapitre 6), les moments de cette loi sont définis par : 

E(a + bX) = a + bE(X) = a + b/u (7.105) 

Y (a + bX) = b 2 V (X) = b 2 cr (7.106) 

C’est ce résultat qui explique notamment que : 

Z = ~ N(0,1)<=^ X ~ nUlj 2 ) (7.107) 

En effet, pour retrouver ce résultat il suffit d’appliquer la transformation linéaire /j+ctZ 
à la variable normale centrée réduite Z pour montrer que X ~ N (/r,<r 2 ). 

Propriété 

Somme de variables normales indépendantes 

Soient X\,...,X n des variables aléatoires réelles indépendantes telles que Xj ~ 
N\Ui,(T fj pour i = 1Alors : 

II 

J]xf ~ N (fl, LT 2 ) (7.108) 

1=1 

n n 

avec fj = y^ ni et lt 2 = ^ aj. 

i=i /=i 

BEI Loi du khi-deux 

La loi du khi-deux (ou « khi carré ») est une loi de probabilité continue définie sur 
l’ensemble des réels positifs R + . Sa densité dépend d’un paramètre appelé nombre 
de degrés de liberté, noté k, avec k € N*. Si une variable aléatoire X définie sur 
X (Q) = R + suit une loi du khi-deux à k degrés de liberté, on note alors : 

X~x 2 (l<) (7-109) 

Remarque : Le nombre de dégrés de liberté k est un entier non nul, on ne peut donc 
pas définir une loi du khi-deux^ 2 (0) ou^ 2 (1/2) par exemple. 
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La distribution du khi-deux à k degrés de liberté correspond à la distribution de la 
somme des carrés de k variables aléatoires indépendantes admettant une distribution 
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Chapitre 7 Lois de probabilité usuelles 


Proimétg 

Définition d'une loi de khi-deux 

Soient X\,...,Xk des variables aléatoires réelles indépendantes telles que X t ~ 
A/' (0,1) pour i = 1 Alors: 

k 

J] Xi ~x 2 (*) (7.110) 

i=i 

Par définition, si la variable X suit une loi normale centrée réduite, la variable X 2 suit 
une distribution du khi-deux à 1 degré de liberté. 

Remarque : Puisque la loi du khi-deux correspond à la loi de la somme de carrés 
de variables normales, cette loi ne peut être définie que sur R. + : la réalisation d’une 
variable du khi-deux n’est jamais négative. 


2.4.1 


Fonction de densité et fonction de répartition 


Définition 7.19 


La variable aléatoire réelle X suit une loi du khi-deux à k G N* degrés de liberté 
sur le support X (O) = R + si sa fonction de densité est définie par : 



VxeX (fi) 


(7.111) 


Cette densité fait apparaître la fonction gamma ", notée F (.) (prononcer «grand 
gamma »). 

Définition 7.20 


La fonction gamma, notée F (z), est définie pour tout entier z € R par : 


r(z) = 



exp (-t)dt 


(7.112) 


X! 

O 
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û 
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Cette fonction gamma est programmée dans tous les logiciels de statistique et les 
tableurs (fonction GAMMA par exemple sous Excel). Elle possède certaines propriétés 
qui simplifient souvent les calculs. 

Propriété 

Fonction gamma 

La fonction gamma vérifie : 

1. Si z est un entier, alors r(z) = (z - 1)! 

2. VzeR ,r(z) = (z~\)F(z-\). 

3 . T(l/ 2 )= s/n. 

10 Il convient de ne pas confondre la fonction gamma et la toi gamma. Il existe en effet une loi de proba¬ 
bilité gamma dont la densité dépend de deux paramètres a et fi. 
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Partie 2 


Probabilités et variable aléatoire 


Exemple 

Soit X ~ x 1 (4). La densité de X évaluée au point x = 2 est égale à : 


1 


fx (2) - — . 

Sachant que T(2) = (2 - 1)! = 1, on obtient : 


4 _, / 2 

x 22 x exp | - - 


/y(2)= 2 ^ T X2XeXp( - 1) " ^2 1 ' =0 ’ 1839 


(7.113) 


(7.114) 


Comme pour la loi normale, il n’existe pas de forme analytique pour la fonction de 
répartition de la loi du khi-deux. Par conséquent si l’on souhaite calculer une proba¬ 
bilité cumulée pour une loi du khi-deux on doit recourir à une table statistique, à un 
logiciel de statistique ou à un tableur (par exemple la fonction LOI.KHIDEUX sous 
Excel). Une table de la fonction de répartition de la loi du khi-deux est fournie en 
annexe (► figure 7.8 pour un extrait). Sur cette table sont reportées les valeurs z ayant 
une probabilité p d’être dépassées, i.e. Pr (X > z) = p. Les probabilités p figurent en 
en-têtes de colonnes et vont de 0,001 à 0,99. En ligne figure le nombre de degrés de 
liberté k de la loi du khi-deux qui varie de 1 à 120 (non reproduit intégralement sur la 
figure 7.8). 


r 

P= 0.990 

P= 0.975 

P» 0.950 

P= 0.900 

P= 0.800 

P= 0.700 

P= 0.500 

P= 0.300 

P= 0.200 

P= 0.100 

P* 0.010 

P= 0.005 

P= 0.001 

1 

0,000 

0.001 

0.004 

0.016 

0.064 

0.148 

0.455 

1,074 

1.642 

2.706 

6.635 

7.879 

10.828 

2 

0,020 

0,051 

0,103 

0.211 

0,446 

0,713 

1,386 

2,408 

3.219 

4,605 

9,210 

10,597 

13.816 

3 

0,115 

0,216 

0,352 

0.584 

1,005 

1,424 

2.366 

3,665 

4.642 

6,251 

11.345 

12.838 

16,266 

4 

0,297 

0,484 

0,711 

1.064 

1.649 

2,195 

3,357 

4,878 

5,989 

7,779 

13,277 

14.860 

18,467 

5 

0.554 

0,831 

1.145 

1,610 

2,343 

3.000 

4,351 

6.064 

7.289 

9.236 

15.086 

16.750 

20.515 

6 

0,872 

1,237 

1,635 

2.204 

3.070 

3,828 

5.348 

7,231 

8,558 

10.645 

16,812 

18.548 

22,458 

7 

1,239 

1,690 

2.167 

2.833 

3.822 

4.671 

6.346 

8.383 

9.803 

12,017 

18.475 

20,278 

24.322 

8 

1.646 

2,180 

2.733 

3,490 

4.594 

5,527 

7.344 

9.524 

11,030 

13,362 

20.090 

21,955 

26,124 

9 

2.088 

2.700 

3,325 

4.168 

5.380 

6.393 

8.343 

10.656 

12,242 

14.684 

21.666 

23,589 

27,877 

10 

2,558 

3,247 

3.940 

4.865 

6,179 

7,267 

9,342 

11,781 

13.442 

15,987 

23.209 

25.188 

29,588 

11 

3.053 

3,816 

4,575 

5.578 

6.989 

8.148 

10.341 

12,899 

14.631 

17.275 

24.725 

26.757 

31,264 

12 

3.571 

4,404 

5.226 

6.304 

7.807 

9.034 

11.340 

14.011 

15.812 

18.549 

26,217 

28,300 

32,909 

13 

4,107 

5,009 

5,892 

7.042 

8,634 

9,926 

12.340 

15,119 

16.985 

19,812 

27.688 

29.819 

34.528 

14 

4,660 

5,629 

6,571 

7.790 

9,467 

10.821 

13.339 

16,222 

18,151 

21.064 

29.141 

31,319 

36,123 

15 

5.229 

6,262 

7.261 

8.547 

10.307 

11,721 

14,339 

17,322 

19,311 

22,307 

30.578 

32,801 

37.697 

16 

5,812 

6,908 

7.962 

9,312 

11.152 

12,624 

15.338 

18,418 

20.465 

23.542 

32,000 

34.267 

39252 

17 

6.408 

7,564 

8,672 

10.085 

12.002 

13,531 

16.338 

19,511 

21.615 

24.769 

33.409 

35.718 

40.790 

18 

7,015 

8,231 

9.390 

10.865 

12.857 

14.440 

17,338 

20.601 

22.760 

25.989 

34.805 

37,156 

42.312 

19 

7,633 

8,907 

10,117 

11,651 

13.716 

15,352 

18,338 

21,689 

23.900 

27.204 

36,191 

38.582 

43,820 

20 

8,260 

9,591 

10.851 

12.443 

14.578 

16,266 

19.337 

22,775 

25.038 

28.412 

37.566 

39.997 

45.315 


A Figure 7.8 Extrait de la table de la loi du khi-deux 

Exemple 

Supposons que X ~ x 2 (5) et que l’on souhaite calculer la probabilité cumulée F x (1,61) = 
Pr(X < 1,61). Par définition, on a Pr(X < 1,61) = I - Pr(X > 1,61). Sur la ligne k = 5 on 
cherche la valeur la plus proche de 1,61. Cette valeur figure dans le tableau et correspond à 
une probabilité p égale à0,9. Par conséquent, F, Y (1,61) = Pr(X < 1,61) = 1 -0,9 = 0,10. 

La recherche des quantiles de la loi du khi-deux à partir de la table de la figure 7.8 
est très simple. Supposons que l’on cherche à calculer le quantile Fÿ ] (0,05) d’ordre 
a = 5 % d’une loi;y 2 (5). Par définition : 

Pr(x < F y ‘ (cr)j = a <=> Pr(x > (cr)) = 1 -a (7.115) 

Dans la table, pour une probabilité (probabilité p d’être « supérieur à » indiquée en¬ 
têtes de colonnes) égale à 1 - a = 0,95 et une loi du khi-deux à k = 5 degrés de liberté 
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(ligne), on trouve une réalisation égale à 1,145. Par conséquent le quantile d’ordre 
a = 5 % de la loi^ 2 (5) est égal à F]^ (0,05) = 1,145. 

Exemple 

Déterminons le quantile d’ordre a = 90 % de la loi \ 1 (5)- On cherche dans la table la 
réalisation Fÿ 1 (0,90) telle que Pr(X > F(' (0,90)) = 0,1. On trouve F* 1 (0,90) = 9,236. 

La figure 7.9 représente les fonctions de densité et de répartition de trois exemples 
de lois du khi-deux avec des nombres de degrés de liberté respectivement égaux à 
k = 1, k = 3 et k = 5. On constate que le profil de la densité peut être relativement 
différent suivant le nombre de degrés de liberté. Pour k - 1, la fonction de densité 
décroit strictement sur R + , tandis que pour des nombres de degrés de liberté plus 
élevés apparait une sorte de « bosse » qui tend à se décaler vers la droite au fur et à 
mesure que k augmente. 
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▲ Figure 7.9 Fonctions de densité et de répartition de la loi du khi-deux 


2.4.2 Moments 


La fonction génératrice des moments de la loi^ 2 (k) est égale à : 

M x (t) = ( \-2tr^ Vf < ^ 

De cette fonction génératrice, on peut dériver l’espérance et la variance. 


EmfiüÊîë 

Espérance et variance de la loi du khi-deux 

Si X suit une loi du khi-deux à k degrés de liberté, alors : 

E (X) = k Y(X) = 2 k 


(7.116) 


(7.117) 


La loi du khi-deux n ’est pas symétrique par rapport à E (X), sa skewness est positive ce 
qui implique que Pr(X > E(X)) > Pr(X < E(X)). Sa kurtosis est toujours supérieure 
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à 3 quel que soit le nombre de degrés de liberté. La distribution du khi-deux est une 
distribution leptokurtique. 


Propriété 

Skewness et kurtosis de la loi du khi-deux 

Si X ~ * 2 (jfc) alors : 


Skewness = 


/ri E(X-E(X)) 


, 3/2 


r (X) 


3/2 


2 -4 


^ E(X - E(X)) 4 ) 

Kurtosis = — = --- 

V(X) 2 


12 + 3 k 


(7.118) 

(7.119) 


2.4.3 1 Autres propriétés 


gtsadilé. 

Additivité de la loi du khi-deux 

Soient X\,...,X n des variables aléatoires réelles indépendantes telles que X, ~ x 2 (D 
pour i = n. Alors : 


Z x >~* 2 2 > 


(7.120) 


i=i 


>i=i 


2.5 


Loi de Student 


La loi de Student (ou distribution t), du pseudonyme choisi par William Gosset (1876- 
1937), est une loi de probabilité continue définie sur l’ensemble des réels R. Cette loi 
est très utilisée dans la construction d’intervalles de confiance, pour établir la dis¬ 
tribution de certaines statistiques de test et notamment du test de Student ou test-/ 
(► chapitre 11 ). La densité d’une loi de Student dépend d’un paramètre appelé nombre 
de degrés de liberté, noté v, avec v e N*. Si une variable aléatoire X définie sur 
X (Q) = R suit une loi de Student à v degrés de liberté, on note alors : 

X~t(v) (7.121) 

La distribution de Student à v degrés de liberté correspond à la distribution d’un ra¬ 
tio de deux variables indépendantes respectivement distribuées selon une loi normale 
standard et une loi du khi-deux à v degrés de liberté. 


Propriété 


Définition d'une loi de Student 

Soient F et Z deux variables aléatoires réelles indépendantes telles que Y ~ N (0,1) 
et Z ~ x 2 ( u )’ alors : 



(7.122) 
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Puisque la variable normale Y est distribuée sur R et la variable Z (khi-deux) sur R + , 
la loi de Student est définie sur R. 
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Remarque : Le nombre de dégrés de liberté v est un entier non nul, on ne peut donc 
pas définir une loi de Student t( 0) ou f (1/2) par exemple. 


2.5.1 i Fonction de densité et fonction de répartition 


Définition 7.21 

La variable aléatoire réelle X suit une loi de Student à v e N* degrés de liberté 
sur le support X (Q.) = R si sa fonction de densité est définie par : 

VSr(f) 

où r (.) désigne la fonction gamma. 


fx (x) = 


x 2\~^ 

1 + -! 

V 


Vxe 


(7.123) 


Emnriété 

Loi de Student 

Si la variable aléatoire réelle X suit une loi de Student t(v) alors sa fonction de 
densité vérifie les propriétés suivantes : 

1. lim f x (x) = lim f x (x) = 0. 

A'—>+00 A—>—OO 

2. f x (x) = fx (-x), Vx € R. 

3. fx (x) atteint son maximum en x = 0. 
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La première propriété est identique à celle évoquée dans le cas de la loi normale. La 
seconde propriété signifie que la fonction de densité de la loi normale est symétrique 
par rapport à son espérance égale à 0. La troisième propriété implique que le mode de 
la distribution de Student est égal à son espérance. 

Comme pour la loi normale et la loi du khi-deux, il n’existe pas de forme analy¬ 
tique pour la fonction de répartition de la loi de Student (on peut utiliser la fonction 
LOI.STUDENT sous Excel). Mais cette fonction de répartition vérifie les propriétés 
suivantes. 

Eranriéîs 

Fonction de répartition de la loi de Student 

Puisque la densité de la loi de Student est symétrique par rapport à son espérance 
égale à 0, sa fonction de répartition vérifie : 

Fx (0) = 0,5 (7.124) 

F x (-x) = 1 -F x (x) Vx € R (7.125) 

Une table de la fonction de répartition de la loi de Student est fournie en annexe 
(► figure 7.10 pour un extrait). La plupart du temps on utilise les tables de la loi de 
Student pour déterminer des probabilités du type Pr (|X| > x) (► chapitre 1 1). C’est 
pourquoi sur la table de la figure 7.10 sont reportées les réalisations x et les probabi¬ 
lités p telles que Pr(|X| > x) = p. Les probabilités p figurent en en-têtes de colonnes 
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et vont de 0,005 à 0,90. En ligne figure le nombre de degrés de liberté v de la loi de 
Student qui varie de 1 à 20. 


r 

P = 0,90 

P = 0.80 

P = 0.70 

P = 0,60 

P = 0.50 

P = 0,40 

P = 0,30 

P = 0,20 

P = 0,10 

P = 0,05 

P = 0.01 

P = 0.005 

i 

0.158 

0.325 

0,510 

0,727 

1,000 

1.376 

1,963 

3,078 

6,314 

12.706 

63,657 

127.321 

2 

0,142 

0.289 

0.445 

0,617 

0,816 

1,061 

1,386 

1,886 

2.920 

4,303 

9,925 

14,089 

3 

0,137 

0.277 

0,424 

0,584 

0,765 

0.978 

1,250 

1,638 

2,353 

3,182 

5,841 

7,453 

4 

0.134 

0.271 

0,414 

0,569 

0,741 

0,941 

1.190 

1,533 

2,132 

2,776 

4,604 

5,598 

S 

0.132 

0,267 

0,408 

0.559 

0,727 

0,920 

1.156 

1,476 

2,015 

2,571 

4,032 

4,773 

6 

0,131 

0,265 

0,404 

0.553 

0,718 

0.906 

1.134 

1,440 

1,943 

2,447 

3,707 

4.317 

7 

0.130 

0,263 

0,402 

0.549 

0,711 

0,896 

1.119 

1,415 

1,895 

2,365 

3,499 

4.029 

8 

0.130 

0,262 

0,399 

0,546 

0.706 

0,889 

1.108 

1,397 

1,860 

2,306 

3,355 

3.833 

9 

0.129 

0.261 

0,398 

0,543 

0,703 

0.883 

1.100 

1,383 

1,833 

2,262 

3.250 

3,690 

10 

0,129 

0.260 

0,397 

0,542 

0,700 

0,879 

1.093 

1,372 

1,812 

2,228 

3.169 

3.581 

11 

0.129 

0,260 

0,396 

0,540 

0,697 

0.876 

1.088 

1,363 

1,796 

2.201 

3.106 

3.497 

12 

0,128 

0,259 

0,395 

0,539 

0,695 

0,873 

1.083 

1,356 

1,782 

2,179 

3,055 

3,428 

13 

0,128 

0,259 

0,394 

0,538 

0,694 

0,870 

1,079 

1,350 

1,771 

2,160 

3.012 

3.372 

14 

0.128 

0.258 

0,393 

0,537 

0,692 

0.868 

1.076 

1.345 

1,761 

2,145 

2,977 

3.326 

15 

0.128 

0,258 

0,393 

0,536 

0,691 

0,866 

1,074 

1.341 

1,753 

2,131 

2.947 

3,286 

16 

0.128 

0,258 

0.392 

0.535 

0,690 

0.865 

1,071 

1.337 

1,746 

2,120 

2.921 

3.252 

17 

0,128 

0.257 

0.392 

0.534 

0,689 

0.863 

1.069 

1,333 

1,740 

2,110 

2.898 

3.222 

18 

0.127 

0,257 

0,392 

0,534 

0,688 

0.862 

1,067 

1,330 

1,734 

2,101 

2,878 

3,197 

19 

0,127 

0.257 

0,391 

0,533 

0,688 

0,861 

1.066 

1,328 

1,729 

2,093 

2,861 

3,174 

20 

0,127 

0.257 

0,391 

0.533 

0,687 

0.860 

1,064 

1,325 

1,725 

2,086 

2,845 

3.163 


▲ Figure 7.10 Extrait de la table de la loi de Student 


Comment déterminer la valeur de F x (x) à partir des probabilités Pr (|X| > x) = p 
reportées dans la table ? De façon générale, on sait que Pr (a < X < b) = Pr (X < b) - 
Pr(X < a). On en déduit que si x > 0 : 

Pr(|X| > x) = I - Pr(|X| < x) = I - Pr(-x < X < x) 

= 1 -Pr(X<x) + Pr(X<-x) (7.126) 

= l-F x (x) + F*(-x) (7.127) 


Puisque la loi de Student est symétrique, Fx (-x) = 1 — Fx (x). On en déduit que : 


p = Pr (|X| > x) = 2 - 2Fx (x) 

Par inversion, il vient si x > 0 : 

2-Pr(|X| > x) 


F x (x) = Pr (X < x) = 


Dans le cas x < 0, on a : 


F x (x) = 1 - F x (-x) = 


Pr (|X| > -x) 


(7.128) 

(7.129) 

(7.130) 


Exemple 

On suppose que X ~ t( 4) et que l’on souhaite calculer les probabilités cumulées 
Pr(X < 2,776) et Pr(X < -0,271). Nous savons que : 

2 - Pr(|X| > 2,776) 


Fx (2,776) = Pr(X < 2,776) = 


(7.131) 


Sur la ligne u = 4 on cherche la réalisation la plus proche de 2,776. Cette réalisation fi¬ 
gure dans le tableau et correspond à une probabilité p = Pr(|X| > 2,776) égale à 0,05. Par 
conséquent : 

2 - 0,05 


F x {2,116) = 


= 0,975 


(7.132) 
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De la même façon, puisque la réalisation -0,271 est négative : 


F x (-0,271) = Pr(X < -0,271) = 


Pr(|X| > 0,271) 
2 


(7.133) 


Sur la ligne u = 4 on cherche la réalisation la plus proche de 0,271. On lit dans la table 
p = Pr(|X| > 0,271) = 0,80, on en déduit que : 


Fx (—0,271) = = 0,40 


(7.134) 


En ce qui concerne la recherche des quantités de la loi de Student à partir de la table 
de la 7.10, on doit distinguer deux cas : 


Premier cas. Si l’on cherche une réalisation c telle que Pr (|X| > c) = p, on peut 
la trouver directement dans la table puisque cette dernière a été conçue pour cela. 
Par exemple, pour une loi f(4) et une probabilité p = 10 % on lit directement 
Pr (|X| > 2,132) = 0,10. 


Deuxième cas. Si l’on cherche un quantile F ^ 1 (a) d’ordre a, on doit alors utiliser une 
formule de passage entre ce quantile et la probabilité p = PrMX| > F ÿ 1 (o-)). Dans la 
table, on cherche la réalisation F%' (a) telle que : 

p = Pr (|X| > F x ] (aŸj = 2-2 a si a > 0,5 


p = Pr (|X| > -F x l (a)) = 2 a si a < 0,5 


(7.135) 

(7.136) 


Exemple 

On suppose que X ~ f (4) et que l’on souhaite calculer les quantiles F x ' (0,05) et F x l (0,90). 
Pour a - 5 %, on cherche la réalisation x dans la table de la figure 7.10 correspondant à 
une probabilité p = Pr(|X| > x ) = 2 a = 0,1. Pour la ligne v = 4 degrés de liberté et une 
probabilité p = 0,1, on lit une réalisation 2,132. Par conséquent, F x ] (0,05) = -2,132. De 
la même façon pour a = 90 % on cherche la réalisation correspondant à une probabilité 
p = 2 - 2a = 0,2. On trouve dans la table F x 1 (0,90) = 1,533. 
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Propriété 

Quantiles de la loi de Student 

Puisque la densité de la loi de Student est symétrique par rapport à son espérance 
égale à 0, sa fonction de répartition inverse vérifie : 


Fÿ (0,5) = 0 

F x l (jc) < 0 si x < 0,5 

(7.137) 

Fx («) = ~Fx 

(l-oO Va e [0,1] 

(7.138) 

Par exemple, pour une loi t( 4) on 

montre que F x (0,05) = 

-2,132 et 


Fÿ (0,95) = 2,132. 
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2.5.2 


Moments 


La fonction génératrice des moments de la loi de Student t(v) n'est pas définie. On 
peut toutefois dériver certains de ses moments. 

Bmeü&é 

Espérance et variance de la loi de Student 

Si X suit une loi de Sudent à a £ N* degrés de liberté, alors : 

E(X) = 0 si n > 2 (7.139) 

V(X) = —— si u >3 (7.140) 

v -2 


Nous avions vu dans le chapitre 6 que certains moments de certaines lois de probabilité 
n’étaient pas définis. C’est le cas de la loi de Student. L’espérance E(X) d’une loi t (1) 
n’est pas définie. La variance V (X) d’une loi t ( 1 ) ou t (2) n’existe pas. 


Proftriéîé 

Skewness et kurtosis de la loi de Student 

Si X ~ t ( v ) alors : 


Skewness 


P3 E(X-E(X)) 3 ) 




(X) 1 ' 1 


= 0 si v > 4 


Kurtosis = 


fU 

2 

h 2 


E(X-E(X)) 4 ) = 6 

Y (X) 2 ‘ v-4 


si v > 5 


(7.141) 

(7.142) 


La loi de Student est une loi symétrique par rapport à son espérance E (X) (si cette 
dernière existe). Par ailleurs, une propriété intéressante de la loi de Student est que 
sa kurtosis (lorsqu’elle existe) dépend du nombre de degrés de liberté. Plus précisé¬ 
ment, la kurtosis est un e fonction décroissante du nombre de degrés de liberté. Plus v 
diminue, plus la kurtosis augmente et plus la probabilité d’apparition de réalisations 
extrêmes croît. C’est pourquoi cette loi est beaucoup utilisée pour représenter l’appa¬ 
rition de rendements financiers extrêmes (gains et pertes) sur les marchés financiers. 
Pour toute valeur de v > 4 finie, la kurtosis est supérieure à 3 : la distribution de 
Student est leptokurtique. Mais lorsque le nombre de degrés de liberté v tend vers 
l’infini, la kurtosis tend vers 3 : la distribution est dans ce cas mesokurtique. 


Autres propriétés 

La figure 7.1 1 représente les fonctions de densité de trois exemples de lois de Student 
avec des nombres de degrés de liberté respectivement égaux à v = 1 , v = 5 et v = 30. 
Par comparaison, nous reportons également la fonction de densité de la loi normale 
centrée réduite )V(0,1). On constate que plus le degré de liberté v augmente, plus 
la densité de la loi de Student t (v) tend à se rapprocher de celle de la loi normale 
standard. On vérifie notamment que la distribution devient de moins en moins lepto¬ 
kurtique au fur et à mesure que v augmente, c’est-à-dire que l’épaisseur de ses queues 
de distribution tend à diminuer lorsque v augmente. 


2.5.3 
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▲ Figure 7.11 Fonction de densité de la loi de Student 

Propriété 

Convergence vers la loi normale 

Lorsque le nombre de degrés de liberté tend vers l’infini, la distribution de Student 
converge (en distribution) vers la loi normale centrée réduite. 

lim/x ( x ) = 0 (x) Vxd 
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Nous étudierons les notions de convergence ensuite. Mais nous comprenons d’ores et 
déjà que ce résultat signifie que lorsque y — > oo, la loi de probabilité de Student est 
identique à celle d’une loi normale N (0,1 ) : sa densité est la même, sa fonction de ré¬ 
partition est la même, ses quantiles sont les mêmes, ses moments sont les mêmes, etc. 
Par exemple, nous savons que si Y suit une loi normale centrée réduite alors E (F) = 0, 
V (F) = 1, skewness(F) = 0 et kurtosis(F) = 3. Or, si X suit une loi t (v), il vient : 


E(X) = 0 

skewness (X) = 0 

(7.143) 

limV(X) 

U 

= lim-- = 1 

(7.144) 

ü—400 

V 400 V — 2 


limkurtosis(F) 

- lim (3 + ) - 3 

(7.145) 

L—400 

d->oo y v - 4 j 



On retrouve les mêmes moments que ceux de la loi normale standard. 


2.6 


Loi de Fisher-Snedecor 


La loi de Fisher-Snedecor (ou loi de Fisher), du nom des statisticiens britannique 
Ronald Fisher (1890-1962) et américain George Snedecor (1881-1974), est une loi 
de probabilité continue définie sur l’ensemble des réels positifs R + . Cette loi est no¬ 
tamment utilisée pour caractériser la distribution de certaines statistiques de test sous 
l’hypothèse nulle et en particulier celle du test de Fisher ou F-test (► chapitre 11 ). La 
densité d’une loi de Fisher dépend de deux paramètres n et m qui correspondent à 
des nombres de degrés de liberté, avec (n,m) e N* x N*. Si une variable aléatoire X 
définie sur X (£2) = R + suit une loi de Fisher à n et m degrés de liberté, on note : 

X~T(n,m) (7.146) 
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Propriété 


Distribution d'une loi de Fisher 


Soient Y et Z deux variables aléatoires réelles indépendantes telles que Y ~ x 2 («) et 
Z ~ x 2 (m), alors : 


Y/n _ 

—- T ( n,m) 

Z/m 


(7.147) 


Remarque : Une loi de Fisher étant définie comme la loi du ratio de deux variables 
distribuées selon une loi du khi-deux, elle est définie sur R + : la réalisation d’une 
variable de Fisher n’est jamais négative. 


Définition 7.22 


La variable aléatoire réelle X suit une loi de Fisher à n e N* et m e N* degrés de 
liberté sur le support X (Q.) = R + si sa fonction de densité est définie par : 


fx M = 


r ( 

ï) r (i 

) n m Xi 1 

r 

(! 

+ 

f) 

^ ^ n+m 

(m + nx) 2 


Vx € R + 


(7.148) 


où r (.) désigne \& fonction gamma. 


La figure 7.12 représente les fonctions de densité de trois exemples de lois de Fisher 
avec des nombres de degrés de liberté respectivement égaux à (1,1), (5,2), (100,100). 
On constate que, suivant les valeurs des nombres de degrés de liberté n et m, on peut 
obtenir des profils très variés de la fonction de densité : strictement décroissante dans 
le cas (1,1), avec une bosse lorsque les nombres de degrés de liberté augmentent, etc. 



0 0,5 1 1,5 2 2,5 3 3,5 4 

X 

▲ Figure 7.12 Fonction de densité de la loi de Fisher 

Étant donnée la définition de la fonction de densité, on vérifie que si X a une distribu¬ 
tion de Fisher, alors I /X a aussi une distribution de Fisher. 

Propriété 

Loi de Fisher 

Soit X une variable aléatoire réelle telle que X ~ T(n,m) alors X~ ] ~ T ( m,n ). 
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Par conséquent, si l’on note Fx (x; n,m ) la fonction de répartition de la loi T ( n,m ), on 
a une relation du type : 

Fx(x;n,m) = I - Fx|-;m,«j Vx e R + (7.149) 

De la même façon si l’on note F x l (a; n,m) le quantile d’ordre a de la loi T (n,m), il 
vient : 

F- x '(a-n,m)= ' - Vue [0,1] (7.150) 

F x ( 1 - a\ m,n) 

La fonction de répartition de la loi de Fisher n’a pas d’expression analytique. Une table 
statistique fournie en annexe de cet ouvrage (► figure 7.13 pour un extrait) permet de 
retrouver les probabilités cumulées Fx (x) = Pr (X < x) d’une loi de Fisher à v\ (en 
ligne) et u? (en colonne) degrés de liberté. Sur cette table sont reportées les réalisations 
x telles que Pr (Z > x) = p pour deux niveaux de probabilité p = 0,05 et p = 0,01. 
Par exemple, on lit que pour une loi T (3,4) on a : 

F*(6,591) = Pr(X< 6,591) = 1 -Pr(X > 6,591) = 1 -0,05 = 0,95 (7.151) 
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V; 

= 1 

Vi 

=2 

V| 

= 3 

V/ 

= 4 

v, 

= 5 

rj 

P» 0.05 

P-0.01 

P= 0.05 

P-0.01 

P= 0,05 

P» 0,01 

P- 0.05 

P- 0.01 

P= 0,05 

P« 0.01 

1 

161,448 

4052.181 

199,500 

4999,500 

215,707 

5403,352 

224,583 

5624,583 

230,162 

5763,650 

2 

18,513 

98,503 

19,000 

99,000 

19,164 

99.166 

19,247 

99,249 

19,296 

99,299 

3 

10.128 

34,116 

9,552 

30,817 

9,277 

29.457 

9,117 

28,710 

9,013 

28,237 

4 

7,709 

21,198 

6,944 

18,000 

6,591 

16,694 

6,388 

15,977 

6,256 

15,622 

5 

6,608 

16,258 

5,786 

13,274 

5,409 

12,060 

5,192 

11,392 

5,050 

10,967 

6 

5,987 

13,745 

5,143 

10,925 

4,757 

9,780 

4,534 

9,148 

4,387 

8,746 

7 

5,591 

12,246 

4,737 

9,547 

4,347 

8,451 

4,120 

7,847 

3,972 

7,460 

8 

5,318 

11,259 

4,459 

8,649 

4,066 

7,591 

3,838 

7,006 

3,687 

6,632 

9 

5,117 

10,561 

4,256 

8,022 

3,863 

6,992 

3,633 

6,422 

3,482 

6,057 

10 

4,965 

10,044 

4,103 

7,559 

3,708 

6,552 

3,478 

5,994 

3,326 

5,636 

11 

4.844 

9,646 

3,982 

7,206 

3,587 

6,217 

3,357 

5,668 

3.204 

5,316 

12 

4,747 

9.330 

3,885 

6,927 

3,490 

5,953 

3,259 

5,412 

3,106 

5,064 

13 

4.667 

9.074 

3,806 

6,701 

3,411 

5,739 

3,179 

5.205 

3,025 

4,862 

14 

4.600 

8.862 

3,739 

6,515 

3,344 

5,564 

3,112 

5,035 

2,958 

4,695 

15 

4,543 

8.683 

3,682 

6,359 

3,287 

5,417 

3,056 

4,893 

2,901 

4,556 

16 

4.494 

8,531 

3,634 

6,226 

3,239 

5,292 

3,007 

4,773 

2,852 

4,437 

17 

4,451 

8.400 

3,592 

6,112 

3,197 

5,185 

2,965 

4,669 

2,810 

4,336 

18 

4,414 

8.285 

3,555 

6,013 

3,160 

5,092 

2,928 

4,579 

2,773 

4,248 

19 

4,381 

8,185 

3,522 

5,926 

3,127 

5,010 

2,895 

4,500 

2,740 

4,171 

20 

4,351 

8,096 

3,493 

5,849 

3,098 

4,938 

2,866 

4,431 

2,711 

4,103 


A Figure 7.13 Extrait de la table de la loi de Fisher 


Sur cette table le nombre de degrés de libérté v\ n’est reporté que pour certaines va¬ 
leurs ( 1,2, 3,4, 5, 6, 8, 10, 12, 24,48) tandis que i >2 est reporté pour toutes les valeurs 
allant de 1 à 30, puis pour les valeurs 40 et 80. Si l’on souhaite calculer la probabi¬ 
lité d’une loi de Fisher dont les nombres de degrés de liberté v\ et/ou V 2 ne sont pas 
reportés dans cette table, on peut utiliser la relation de l’équation (7. 149) pour obtenir 
le résultat. 
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3 questions à 

Abdou NDiaye 

Risk Management Analyst, 
Volkswagen Bank 



Quel est votre parcours professionnel et votre mission 
actuelle chez Volkswagen Bank ? 

À l'issue de mes études, j'ai été embauché en 2009 à 
CGI-Finance, filiale de la Société Générale. Actuellement 
chez Volkswagen Bank depuis mars 2012, j'ai intégré le 
département Risk Management comme analyste senior. En 
tant que statisticien, mes missions sont très variées, mais 
portent sur deux axes majeurs : la gestion des risques (retail 
et corporate) et le marketing financier. Concernant la 
gestion des risques, je contribue à la modélisation, au 
backtesting et à l'estimation de modèles de notation interne 
(scores d'acceptation, scores de comportement, modèles 
LGD, scores recouvrement). Je travaille en outre sur la mise 
en œuvre de stress testing et sur la préparation du Business 
Financial Review (semestriel). Dans le domaine du marketing, 
mon travail consiste à mettre en œuvre des modèles de suivi 
pour mesurer le risque de remboursement anticipé, des 
méthodes de ciblage de clientèle et des études de retour de 
campagne marketing pour la fidélisation de nos clients. 

Dans le cadre de votre activité, quelles lois de 
probabilité usuelles utilisez-vous et dans quel cadre ? 

On utilise les lois de probabilité usuelles à de nombreuses 
occasions. Ces distributions sont notamment utilisées pour 
caractériser la loi de différentes statistiques de tests. Par 
exemple, nous utilisons des tests sur les liaisons entre la 
variable « cible » et les variables explicatives afin d'éliminer 
les variables sans aucune influence sur la variable « cible ». 
Ces tests reposent sur la loi du khi-deux (test du khi-deux par 
exemple). Mais de façon générale, nous utilisons 
régulièrement différentes lois usuelles comme la loi normale 
(pour les modèles probit), la loi de Student, la loi logistique 
(pour les modèles logit), la loi exponentielle (pour les 
durées), etc. 

Sous quels types de logiciels la mise en œuvre de ces 
lois se fait-elle ? 

Uniquement sur des logiciels statistiques : à la Société 
Générale sous SAS et chez Volkswagen Bank sous SPSS. ■ 
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Chapitre 7 Lois de probabilité usuelles 


Les points clés 

La loi uniforme discrète est caractérisée par une propriété d’équiprobabilité. 


La loi de Bernoulli est la loi de probabilité de variables aléatoires dichotomiques 
ou binaires. 


La loi binomiale correspond à la loi de probabilité du nombre de succès obtenus 
lors de n expériences indépendantes de Bernoulli de même probabilité de succès. 


La loi géométrique correspond à la loi de probabilité du rang du premier succès 
obtenu lors de n expériences indépendantes de Bernoulli de même probabilité de 
succès. 


La loi de Poisson est une loi de probabilité adaptée aux variables de comptage. 


La loi exponentielle et la loi géométrique sont des lois de probabilité sans mé¬ 
moire. 


La loi normale est une loi de probabilité continue et symétrique définie sur R. 


La loi du khi-deux correspond à la loi de probabilité d’une somme de carrés de 
variables normales centrées, réduites et indépendantes. 


La loi de Student correspond à la loi de probabilité d’un ratio de variables indé¬ 
pendantes distribuées selon une loi normale standard et une loi du khi-deux. 


-» La loi de Fisher correspond à la loi de probabilité d’un ratio de variables indépen¬ 
dantes distribuées selon des lois du khi-deux. 
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Partie 2 Probabilités et variable aléatoire 


EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Lois usuelles discrètes 

a. La loi binomiale correspond au résultat du n eme tirage 
d’une expérience de Bernoulli. 

b. Une somme de variables de Bernoulli indépendantes 
est distribuée selon une loi binomiale. 

c. Une somme de variables indépendantes distribuées 
selon des lois binomiales de même probabilité de 
succès est distribuée selon une loi binomiale. 

d. Une loi de Poisson permet de modéliser des variables 
de comptage. 

e. Une loi géométrique est une loi sans mémoire. 

Lois usuelles continues 

a. La fonction de densité d’une loi uniforme continue 
est symétrique par rapport à son espérance. 

b. Une loi uniforme est une loi de probabilité sans mé¬ 
moire. 

c. La fonction de densité d’une loi exponentielle est sy¬ 
métrique par rapport à son espérance. 

d. Si une variable suit une loi normale N (p,tr 2 j, son 
carré suit une loi du khi-deux à 1 degré de liberté. 

e. La loi de Fisher-Snedecor correspond à la loi d’un 
ratio de variables indépendantes distribuées selon 
des lois du khi-deux. 

Loi normale 

a. SiX suit une loi normale alors la variable -3 xX suit 
une loi normale. 

b. Si 0(1,96) = 0,975, alors 0“' (0,025) = 1,96. 

c. Si cri > tt 2 alors 0 -1 foi) > 0 -1 fo 2 ). 


d. Si 0 (-1,96) = 0,025 alors 0 ( 1,96) = 0,975. 

e. La densité de la loi normale est symétrique autour de 
son espérance. 

4 Loi de Student 

a. La fonction de densité de la loi de Student est tou¬ 
jours leptokurtique. 

b. La fonction de densité de la loi de Student est uni- 
moclale et son mode est égal à son espérance. 

c. Si Fx ( x) est la fonction de répartition d'une loi t(u), 
alors Fx (x) = —Fg ( 1 - .v), Vx e R. 

d. Si Fx (x) est la fonction de répartition d’une loi / (v), 
alors Fÿ 1 fo) = -Fÿ ( 1 - a), Vu e [0,1]. 

e. Si F x (x) est la fonction de répartition d’une loi t( 4), 
alors Fÿ (0,05) = 1,95. 

Exercices 

5 Lois usuelles discrètes 

L’objectif de cet exercice est de vous familiariser avec le 
calcul des probabilités, des probabilités cumulées et des 
fractiles des principales lois discrètes usuelles à partir 
des tables statistiques fournies en annexe. 

1. Soit X une variable aléatoire distribuée selon une loi 
uniforme discrète sur X(O) = (-2,-1,0,1,2,3]. Cal¬ 
culez Pr(X = 4), Pr(X = 1) et Pr(X < 2). 

2. Soit X une variable aléatoire discrète distribuée selon 
une loi binomiale 2?(10 ; 0,4). Calculez Pr(X = 2), 
Pr(X = 2,57) et Pr(2,57 < X < 4). 

3. Soit X une variable aléatoire discrète distribuée se¬ 
lon une loi de Poisson P(4). Calculez Pr(X = 2,57), 
Pr(X = 5) et Pr(2,57 < X < 4). 

Loi normale 

L’objectif de cet exercice est de vous familiariser avec le 
calcul des probabilités cumulées et des fractiles de la loi 
normale à partir des tables statistiques fournies en an¬ 
nexe. Soit X une variable aléatoire continue distribuée 
selon une loi normale N (2,2). 
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1. Calculez Pr(X = 2,57) et Pr(|X| > 1). 

2. Calculez les quantiles d’ordres a = 0 et a = 0,95. 

3. Calculez le quanlile d’ordre a = 0,01. 

Loi binomiale (Université Lyon 1, 2008-09) 

On extrait n e N fois avec remise une boule dans une 

urne composée de 2 boules vertes et 6 boules blanches. 

Soit X„ la variable aléatoire associée au nombre de 

boules vertes obtenues lors des n tirages. 

On pose F„ = XJn. 

1. Donner la loi de X„. En déduire l’espérance et la va¬ 
riance de X n puis de F„. 

2. On suppose dans cette question que n = 10 000. A 
l’aide de l’exercice précédent, donner une borne in¬ 
férieure pour la probabilité de l’événement 

F„e] 0,22; 0,26[ (7.152) 

3. Déterminer le nombre minimal n de tirages néces¬ 
saires pour que la probabilité de l’événement F„ e 
]0,22; 0,26[ soit au moins égale à 0,99. 


Sujets d'examen 


3. Soit Y la variable définie par la relation suivante : 

Y - aX + b (7.154) 

où a et b désignent deux paramètres réels. Calcu¬ 
ler en fonction de a et de b , l’espérance mathéma¬ 
tique et la variance de Y. Déterminez a et b sa¬ 
chant que la probabilité de réalisation de l’événe¬ 
ment (Y < 24) est égale à 0,2266 et que celle de 
l’événement (y > 42) est égale à 0,0668. 

Loi binomiale et loi de Poisson (Université Paris 

Assas) 

On considère les nombres x 0 et x\ définis comme suit : 

— Xp est la plus grande valeur entière de x telle que : 

Pr(X < x) < 0,05 (7.155) 

- x\ est la plus petite valeur entière de x telle que : 

Pr(X > x) < 0,05 (7.156) 

1. Déterminer les valeurs x 0 et x\ si la variable X suit 
une loi binomiale B (40; 0,08). 

2. Déterminer les valeurs x 0 et X| si la variable X suit 
une loi de Poisson V (12). 


Loi normale (Université Paris Assas) 

Soit X une variable aléatoire dont la loi de probabilité 
est la loi normale de moyenne 12 et d’écart-type 4. 

1. Calculer la probabilité de réalisation de chacun des 
événements suivants : 


10 Loi de Fisher et loi du khi-deux (Université 
Paris Assas) 

On considère les nombres x 0 et X\ définis comme suit : 

Pr(X < x 0 ) = 0,05 (7.157) 

Pr(X > X|) = 0,05 (7.158) 


(X = 2) (X < 16) (X > 20) (X<0) (7.153) 

2. Déterminer le nombre e tel que la probabilité de 
réalisation de l’événement (|X — 12| > e) soit égale 
à 0,01. 


1. Déterminer les valeurs x 0 et xi si la variable X suit 
une loi de Fisher T (4,20). 

2. Déterminer les valeurs xo et x\ si la variable X suit 
une loi du khi-deux^ 2 (8). 
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Chapitre 



L ’assurance est une activité fondamentalement 
basée sur la loi des grands nombres. Considé¬ 
rons le cas d’une assurance automobile desti¬ 
née à couvrir le risque de dégradation du véhicule 
(accident, vol, bris de glace, etc.). Pour un individu 
donné, la perte financière associée à un tel risque 
peut être représentée par une variable aléatoire. Sup¬ 
posons que l’espérance de cette variable soit égale 
à 170 €. Si chaque individu accepte de verser à la 
compagnie d’assurance une somme légèrement su¬ 


périeure à 170 €, par exemple 175 €, le montant to¬ 
tal des primes collectés sera de 1 15n € où n désigne 
le nombre d’assurés. Supposons que les pertes des 
assurés sont indépendantes. Sous ces hypothèses, la 
loi des grands nombres permet de montrer que si n 
est suffisamment grand, le montant total des pertes 
sera inférieur au total des primes collectées avec une 
probabilité de 1, ce qui garantit la pérennité finan¬ 
cière de la compagnie d’assurance. 


LES GRANDS 

AUTEURS 



Jarl Waldemar Lindeberg (1876-1932) 

Jarl Waldemar Lindeberg est un mathématicien finnois qui fut à l'origine de l'une 
des versions du théorème central limite, la version dite de Lindeberg-Levy que nous 
découvrirons dans ce chapitre. Cette version du théorème est parue dans un article 
en 1920, quelques temps après la publication d'une autre version proposée par le 
mathématicien russe Alexandre Lyapounov (1857-1918). Lindeberg dit ne pas avoir eu 
connaissance des travaux de Lyapounov, ce qui peut paraître curieux à l'ère d'Internet, 
mais ce qui se comprend tout à fait dans le contexte du début du xx e siècle. D'ailleurs, 
comme nous le verrons dans ce chapitre, leurs approches sont très différentes. 

Le mathématicien suédois Harald Cramer rapporte une anecdote plaisante au sujet 
de Lindeberg : quand on venait à lui reprocher de ne pas être suffisamment actif dans 
son travail de recherche, il répondait qu'il s'occupait principalement de sa ferme. 
Mais quand on lui reprochait un certain laisser-aller dans son exploitation agricole, 
il répondait qu'il était avant tout professeur. Quoiqu'il en soit, la moyenne de ses 
compétences agricoles et scientifiques est passée à la postérité. ■ 
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Propriétés 

asymptotiques 




Eljfl 

il Notions de convergence. 228 

Fl Théorème central limite . 238 


Pré-requis 

Connaître la notion de variable aléatoire ( chapitre 6). 

Objectifs 

Étudier le comportement asymptotique d'une suite de variables aléatoires. 
Comprendre le concept de convergence en probabilité. 

Comprendre le concept de convergence presque sûre. 

Comprendre le concept de convergence en loi. 

Savoir appliquer la loi faible des grands nombres. 

Savoir appliquer le théorème central limite. 
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O n considère n variables aléatoires (discrètes ou continues) Y\, Y 2 , ■ . ■, Y n . À par¬ 
tir de celles-ci, on construit une nouvelle variable, notée X„, telle que X„ soit 
une fonction /(.) de Ki.L?. Y„ '■ 

X n = f (Y\,...,Y„) (8.1) 


Le but de chapitre est d’étudier le comportement de la suite de variables aléatoires 
X n lorsque la dimension n tend vers l’infini. Est-ce que X„ est toujours définie comme 
une variable aléatoire lorsque n tend vers l’infini ? Ou, au contraire, se comporte-t-elle 
comme une variable dégénérée (quantité certaine) ? Quelle est la loi asymptotique de 
cette variable ? 


Pour répondre à ces questions, nous allons introduire différents concepts de conver¬ 
gence. La notion de convergence constitue la base de la statistique mathématique et 
de la théorie des tests. Dans ce cadre, nous présenterons deux résultats fondamen¬ 
taux : la loi des grands nombres et le théorème central limite. Ces deux théorèmes 
s’intéressent au comportement asymptotique d’une fonction particulière des variables 
Y\,...,Y n , à savoir la moyenne empirique : 


f(Y l ,...,Y n ) = -ÿ J Y„ 

11 i=\ 


( 8 . 2 ) 


Pourquoi s’intéresser tout particulièrement au comportement asymptotique de la 
moyenne empirique ? Dans la pratique, la variable étudiée correspond généralement 
à un estimateur (► chapitre 9) et la dimension n à la taille de l’échantillon. On sou¬ 
haite alors étudier les propriétés asymptotiques de cet estimateur en faisant tendre 
la taille de l’échantillon vers l’infini. Or, la plupart des estimateurs peuvent s’écrire 
comme des fonctions de la moyenne empirique des variables de l’échantillon. Dès 
lors, la connaissance du comportement asymptotique de la moyenne empirique per¬ 
met d’en déduire le comportement asymptotique de la plupart des estimateurs. Ces 
deux théorèmes constituent ainsi le fondement de toute la théorie de l’estimation. 


D Notions de convergence 

L’objectif de cette section est d’analyser le comportement d’une suite (ou séquence) 
de variables aléatoires, indicées par n e N. Comme pour les suites de nombres, 
une suite de variables aléatoires est une famille de variables aléatoires indexée par 
un entier strictement positif. Une suite de variables aléatoires est généralement notée 
sous la forme (X n ) ne ^ ou (X„). Souvent en statistique, cette suite est définie comme 
une fonction X„ = f (Z\ ,...,Z n ) d’autres variables aléatoires Z\,...,Z n . C’est typique¬ 
ment le cas des estimateurs (► chapitre 9). Par exemple, ( X n ) peut correspondre à une 
moyenne empirique, une variance empirique, etc. 

Définition 8.1 

La théorie asymptotique consiste en l’étude des propriétés d’une suite de va¬ 
riables aléatoires ( X n ) lorsque la dimension n tend vers l’infini. 
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La théorie asymptotique est donc basée sur l’idée de limite : on cherche à étudier la 
« limite » de la variable aléatoire X„ lorsque n —» oo. Plus spécifiquement, elle repose 
sur quatre notions de convergence : 

1. La convergence presque sûre. 

2. La convergence en probabilité. 

3. La convergence en moyenne quadratique. 

4. La convergence en loi. 

Remarque : Les notions de convergence peuvent s’appliquer à des suites de variables 
aléatoires discrètes ou continues. Afin de simplifier la présentation, nous ne considé¬ 
rerons que le cas de suites de variables aléatoires réelles (continues). 


1.1 


Convergence presque sûre 


La convergence presque sûre implique que lorsque n tend vers l’infini, la suite de 
variables aléatoires (X„) tend vers une constante déterministe de façon certaine. 

Définition 8.2 

La suite de variables aléatoires ( X „) converge presque sûrement (ou de façon 
forte) vers une constante c, si : 

Pr(limX„ =c)= 1 (8.3) 

\/7—» oo / 

où Pr désigne la probabilité. On note la convergence presque sûre sous la forme 
suivante : 

x„ c (8.4) 
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Le symbole « a.s. » renvoie à la traduction anglo-saxonne du terme presque sûre ( al- 
most sure). Ce résultat signifie que lorsque n tend vers l’infini, les réalisations de la 

a.s. 

variable X n sont toutes égales à la constante c. Par exemple le résultat X n —» 2 si¬ 
gnifie que pour une dimension n suffisamment grande, si l’on effectue des tirages de 
la variable X n , on obtiendra 2, 2,...,2. En d’autres termes, la suite (X„) tend vers une 
variable aléatoire dégénérée, c’est-à-dire une quantité déterministe (non aléatoire). 
Comme le montre la figure 8.1, la fonction de densité de la variable X n , lorsque n tend 
vers l’infini, est une masse ponctuelle. La probabilité d’obtenir toute autre valeur que 
c = 2 est alors nulle. 


1.2 


Convergence en probabilité 


L’idée de la convergence en probabilité est assez similaire à celle de la convergence 
presque sûre. Lorsque la dimension n tend vers l’infini, la suite (X n ) tend vers une 
constante déterministe c. La différence est que cette convergence n'est pas stricte : 
la variable X n est presque dégénérée, mais elle reste toutefois une variable aléatoire 
même si sa densité est extrêmement concentrée autour de la valeur c. 
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1,2 
1,0 
X e 0,8 

dJ 
"O 

•<u 0,6 

Cô 

S 0,4 
O 

0,2 
0 

▲ Figure 8.1 Illustration de la notion de convergence presque sûre 

EéfiniJü&niLâ 

La suite de variables aléatoires ( X n ) converge en probabilité (ou converge au 
sens faible) vers une constante c, si pour toute valeur e > 0, 

lim Pr(|X„ - c| > e) = 0 (8.5) 

II —>oo 

Cette convergence en probabilité est notée : 

p 

X„ —» c ou plim X n = c (8.6) 

Cette définition signifie que lorsque la dimension n est suffisamment grande, la proba¬ 
bilité d’obtenir une réalisation de X„ dont l’écart à la valeur c (en valeur absolue) soit 
plus grand qu’une valeur arbitraire e (aussi petite que l’on souhaite), tend vers 0. 
Représentons graphiquement la probabilité Pr (|X„ - c\ > e). Cette probabilité corres¬ 
pond à la somme des probabilités associées à deux événements disjoints : soit la va¬ 
riable X„ est supérieure à c + e, soit la variable X„ est inférieure à c - e : 

Pr (|X„ - c\ > e) - Pr ( X n > c + e) + Pr ( X n < c - e) (8.7) 

Sur la figure 8.2, la probabilité Pr (\X n - c| > £) est représentée par la somme des aires 
colorées, situées sous la fonction de densité de X„, à droite et à gauche des valeurs 

P 

c + s et c — e. Si X n —» c, cela implique que lorsque n tend vers l’infini, la probabilité 
Pr(|X„ - c| > e) tend vers 0. L’aire colorée de la figure 8.2 devient ainsi très petite. 
Ceci est vrai quelle que soit la valeur de la constante s. Pour une quantité e elle même 
très petite, la densité de X„ est donc nécessairement extrêmement concentrée autour 
de la valeur c, comme le montre la figure 8.3. 

p v 

Ainsi le résultat X n —> 2 implique que, si l’on effectue des tirages dans X n pour n très 
grand, on obtiendra des réalisations du type 2,001, 1,999,2, 2,0002, etc. La différence 
entre la notion de convergence presque sûre et la convergence en probabilité est que 
dans le premier cas, la variable X n n’est plus une variable aléatoire : sa densité est 
une masse ponctuelle et ses réalisations sont toujours égales à c. Dans le cas de la 
convergence en probabilité, X n n’est presque plus une variable aléatoire : sa densité 
est extrêmement concentrée autour de c (sa variance est extrêmement faible) et les 
réalisations de X„ sont très proches de c, mais pas nécessairement égales à c. Par 
conséquent, la convergence presque sûre implique la convergence en probabilité. 
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▲ Figure 8.2 Représentation de la proba- ▲ Figure 8.3 Illustration de la notion de 
bilité Pr(|X„ - c| > e) convergence en probabilité 

Remarque : La convergence presque sûre implique la convergence en probabilité. Si 
X n 4' c alors X n 4 c, la réciproque n’est pas nécessairement vraie. 


FOCUS 


Notations 


De façon générale, la convergence en probabi¬ 
lité signifie qu’une séquence de variables aléa¬ 
toires ((X„) dans notre cas) tend vers une constante 
lorsque la dimension n est grande : 

X n 4 c (8.8) 

variable aléatoire constante 

Toutefois, on trouve parfois la notation suivante : 

X n 4 (8.9) 

variable aléatoire variable aléatoire 

où Z est une variable aléatoire non indicée par n. 
Cela signifie que la différence entre les deux va¬ 


riables X n et Z tend vers 0 lorsque n tend vers l’in¬ 
fini : 

X„-Z 4 0 (8.10) 

variable aléatoire constante 

Dit autrement, les deux variables ont la même dis¬ 
tribution (► section 1 .4) lorsque la dimension n est 
suffisamment grande. Mais attention cette notation 
peut induire en erreur car, de façon générale, la 
convergence en probabilité implique une variable 

y • v . P 

aléatoire (à gauche du signe —») et une constante 
(à droite de ce signe). 


Sous quelles conditions, une suite de variables aléatoires X„ converge-t-elle en pro¬ 
babilité ? Une condition nécessaire et suffisante à la convergence en probabilité est la 
suivante. 

Propriété 

Convergence en probabilité 

Soit une séquence de variables aléatoires ( X „) telle que : 

limE(X„) = c (8.11) 

n—*oo 

lim V (X n ) = 0 (8.12) 
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où c e R, alors, la suite (X„) converge en probabilité vers c lorsque n —» oo : 


x„4c 


(8.13) 


Rappelons que les expressions E (X) et V ( X ) désignent respectivement l’espérance et 
la variance (► chapitre 6) d’une variable aléatoire X. 

Exemple 

On considère n variables aléatoires Y\,...,Y n indépendantes et identiquement distribuées 
(i.i.d.) telles que Y, ~ N(in,cr 2 ), V/ = 1. n. Montrons que la variance empirique corri¬ 

gée définie par : 




(8.14) 


où Y„ = (l/n)^. = | Yj , converge en probabilité vers la variance a 2 . Pour cela, calculons les 


deux premiers moments de S „. On admet le résultat suivant : 


CT~ 


(8.15) 


Étant données les propriétés de la loi du khi-deux (► chapitre 7), on sait que si X ~ x 2 (c) 
alors E (X) = u et V (X) = 2v. Dès lors, on obtient : 


- 1),2 


! ( n - 

l 

(^î)- 


El -— t—S f, | = n — 
'(n-1). 


2(n - I) 


On en déduit que : 


^ s -)= ^ E ( s -) = » - 1 => E (U = ^ 


v ( !î jr 2s > 2 ) = 1 ^ v ( s -) = 2( »- 11 “ V Ù-) = 4r 

Par conséquent : 

E«) = <r 2 

lim¥(5 2 )= lim ( ) - 0 

n-*oo ' ' n-* oo \ H — J J 

On en conclut que la variance empirique corrigée converge vers la variance a 2 . 

e 2 P 7 

S „ > CT 


(8.16) 

(8.17) 

(8.18) 

(8.19) 

( 8 . 20 ) 
( 8 . 21 ) 

( 8 . 22 ) 


Une des principales applications de la notion de convergence en probabilité est la 
loi faible des grands nombres. La loi faible des grands nombres, telle qu’énoncée 
par Khintchine ( 1878-1959), stipule que la moyenne empirique de variables aléatoires 
indépendantes et identiquement distribuées (i.i.d.) converge en probabilité vers l’es¬ 
pérance de ces variables. 

1 II existe d'autres versions de la loi faible des grand nombres. Par exemple, il est possible de considérer 
des variables qui ne sont pas identiquement distribuées, mais seulement indépendantes. Ainsi, la loi faible 
des grands nombres s’applique même si les espérances ou les variances sont hétérogènes (loi faible des 
grands nombres de Tchebychev). 
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Théorème 8.1 

Loi faible des grands nombres ou théorème de Khintchine 

Soient des variables aléatoires Y\,...,Y n indépendantes telles que E(y,) = m et 
Y (Yi) = cr 2 , Vi = 1La moyenne empirique de ces variables converge en 
probabilité vers l’espérance m : 

Yn = - V Y, 4 E(L) = m (8.23) 


Démonstration 

Pour démontrer le résultat de la loi faible des grands nombres, déterminons les deux premiers 
moments de la moyenne empirique Y„. L’espérance étant un opérateur linéaire, nous avons : 


E ( 1 '-) = E l;Ër) = ^ E(W 

i= 1 / i=\ 


Puisque toutes les variables L ont la même espérance E(L,) = m, il vient : 

1 nXm 


/— \ i v n x 

E(y„) = - y m = - 

x ' n n 

t =i 


(8.24) 


(8.25) 


La variance de Y„ peut s’écrire sous la forme suivante : 

V ( 7 -)- V (;Ê^)=^ V (Ê 1 '') <*•*> 

En développant, nous faisons apparaître les termes de variances et de covariances des va¬ 
riables Y\,...,Y„ : 

V(F n ) = ^ (V(F,) + ... + V(y„) + 2C ov ( Y u Y 2 ) + ... + 2C oo(Y n - U Y„)) (8.27) 

ou de façon synthétique : 

| / n n n ' 

Y ( Y ")= -r Z V(y - )+2 ZZ c ° v { y " y j ) < 8 - 28 ) 

n v i=l (=1 j=i +1 

Toutes les variables aléatoires Y, ont la même variance Y (Y-,) = cr 2 . Par ailleurs, ces va¬ 
riables sont indépendantes, donc toutes les covariances Cov(Yi,Yj) pour j ^ i sont nulles. Par 
conséquent, il vient : 


\ t n 1 n L n 1 n 


Ainsi, on obtient : 


e(ë„) = 

limY (F„) = lim 

n—* co ' ' n—* oo 


(T 


0 


«-» oo fj 

La moyenne empirique Y„ converge en probabilité vers l’espérance m : 

Ÿ„ 4 m 


(8.29) 

(8.30) 

(8.31) 

(8.32) 
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FOCUS 


Loi forte des grands nombres 


En imposant des conditions supplémentaires sur 
les variables F,, il est possible d’obtenir une 
loi forte des grands nombres ou théorème de 
Kolmogorov. À la différence de la loi faible, la loi 


forte implique une convergence presque sûre de la 
moyenne empirique vers l’espérance : 

F/4'E(F,) (8.33) 


Ce qu’il y a de remarquable dans la loi faible des grand nombres, c’est que ce résul¬ 
tat s’applique quelle que soit la distribution des variables aléatoires Fi,...,F„. La 
seule hypothèse est que ces variables doivent être indépendantes (et identiquement 
distribuées, avec les mêmes espérances et variances dans le cas du théorème de Khint- 
chine). Que les variables F, aient une distribution de Student, de Poisson, du khi-deux 
ou une distribution non standard, leur moyenne empirique F„ converge toujours en 
probabilité vers leur espérance. 


Exemple 

On considère n variables aléatoires discrètes Z| ,...,Z„ indépendantes et identiquement distri¬ 
buées (i.i.d.) telles que Z, ~ P (A). D’après les propriétés de la loi de Poisson (► chapitre 7), 
on sait que E(Z ; ) = A. Par conséquent, d’après le théorème de Khintchine, on a : 



(8.34) 


Afin d’illustrer cette propriété, menons l’expérience suivante. On considère des va¬ 
riables aléatoires indépendantes et identiquement distribuées selon une loi uniforme 
F,- ~ f/[o,io], Vf = 1. n, avec E(F,) = 5. On applique la procédure suivante : 

1. Grâce à un logiciel, on tire des réalisations [y\,...,y n ] des n variables [Y\ ,...,F„). Si 
n - 3, on obtient par exemple trois réalisations {1,7363; 4,9926; 7,6626}. 

2. On calcule une réalisation de la moyenne empirique F„. Cette réalisation est notée 
y n = n 2^ ! y>- Dans l’exemple précédent, on obtient y n = 4,8105. 

3. On répète 5 000 fois les étapes 1 et 2. On obtient ainsi 5 000 réalisations de la 
variable F„. 

4. On construit l’histogramme de ces 5 000 réalisations. 

5. On répète l’expérience pour différentes valeurs de la dimension n (taille d’échan¬ 
tillon). Il convient de ne pas confondre ici la taille d’échantillon n (par exemple 3) 
et le nombre de réplications (5 000). 

Sur la figure 8.4 sont reportés les histogrammes des 10000 réalisations ÿ n obtenues 
pour quatre valeurs de n, à savoir n = 10, n = 100, n = 1 000 et n = 10000. On 
observe que lorsque la dimension n est très grande, les réalisations de la moyenne 
empirique F„ tendent à se concentrer autour de la valeur de l’espérance E (F,) = 5. On 
aurait pu réaliser la même expérience avec des variables aléatoires F, admettant une 
autre loi (Student, khi-deux, etc.). Le résultat aurait été le même, ce qui confirme le 
caractère général de la loi faible des grands nombres qui ne dépend pas de la forme de 
la distribution de F, . 
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▲ Figure 8.4 Illustration de la loi faible des grands nombres 


1.3 


Convergence en moyenne quadratique 


Dans la pratique, la notion de convergence en moyenne quadratique est moins utili¬ 
sée que la notion de convergence en probabilité ou de convergence presque sûre. Elle 
est surtout utilisée pour démontrer ces deux dernières. 


fiêüoiîiaaM 

La suite de variables aléatoires (X n ), telle que K(|X„| 2 ) < oo, converge en 
moyenne quadratique vers une constante c, si lorsque n tend vers l’infini : 

E(|X„-c| 2 )<y (8.35) 

pour toute valeur y > 0. On note la convergence en moyenne quadratique sous la 
forme suivante : 

X n —> c (8.36) 
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Le symbole « m.s. » renvoie à la traduction anglo-saxonne du terme moyenne qua¬ 
dratique (mean square). Une façon équivalente de définir la convergence en moyenne 
quadratique est de poser que X n c si : 

limE( |X„ - c| 2 ) = 0 (8.37) 

n—too 

L’idée est toujours la même : la suite (X n ) converge vers une constante c, si sa distri¬ 
bution est centrée sur c, Le. si E(X„) = c et si sa variance E((X„ - c) 2 ) tend vers 0 
lorsque la dimension n tend vers l’infini. La densité de la variable X n devient alors 
extrêmement concentrée autour de la valeur c. 

Remarque : La convergence en moyenne quadratique implique la convergence en 

m.s. p 

probabilité. Si X n —» c alors X„ —> c, la réciproque n’est pas nécessairement vraie. 
Afin de prouver ce résultat, nous pouvons utiliser 1 ’inégalité de Tchebychev. 
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Proposition 

Inégalité de Tchebychev 

Soit X une variable aléatoire telle que E(X) = /u existe et soit finie, et de variance 
égale à V ( X ) = cr . Alors, Vk e R + : 

Pr (|X -fj.\> kcr) < 4 (8.38) 

Ar z 

Appliquons l’inégalité de Tchebychev pour démontrer que la convergence en moyenne 
quadratique implique la convergence en probabilité. Pour cela, il suffit de remarquer 
que si X„ c avec E (X„) = c alors Vy e R + : 

E( \X n - c| 2 ) = E( (X n - E (X,,)) 2 ) = Y (X„) = (r 2 < y (8.39) 

D’après l’inégalité de Tchebychev, si l’on pose ô = kcr, il vient : 

2 

?r(\X-c\>ô)<Ç (8.40) 

0~ 

D'après le résultat de l’équation (8.39), puisque 5 = kcr > 0, on obtient : 

2 

Pr(|X-c| >5)< Ç < £ (8.41) 

o- O" 

En posant s = y/ô 2 > 0, on retrouve l’inégalité qui correspond à la définition de la 
convergence en probabilité, i.e. Pr(|X - c\> 5) < e. Ainsi, si X„ c alors X„ —* c. 


1.4 


Convergence en loi 


La notion de convergence en loi (ou en distribution) est fondamentalement différente 
des trois notions de convergence étudiées précédemment (presque sûre, probabilité 
et moyenne quadratique). Pour ces trois notions, nous avons vu qu’une séquence de 
variables aléatoires, indicée par n, converge vers une constante (quantité déterministe), 
lorsque la dimension n tend vers l’infini : 


m.s. ! p ! a.s. 



(8.42) 


variable aléatoire constante 


Au contraire, dans le cadre de la convergence en loi (notée cl), une séquence de va¬ 
riables aléatoires converge vers une autre variable aléatoire, ne dépendant pas de la 
dimension n : . 

X n A _X_ (8.43) 

variable aléatoire variable aléatoire 


Définitlpn 8,5 


Soit une suite de variables aléatoires (X„) ayant pour fonction de répartition F n (.). 
On dit que (X„) converge en loi (ou en distribution) vers une variable aléatoire X 
définie sur le support X (Q) et ayant pour fonction de répartition F (.) si : 

lim F„ (x) = F (x) Vx € X (Q) (8.44) 

n—>oo 

On note la convergence en distribution sous la forme suivante : 

X„ 4 X (8.45) 
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Le symbole « ci » renvoie à la traduction anglo-saxonne du terme loi statistique (dis¬ 
tribution). L’idée de la convergence en loi est la suivante : lorsque n tend vers l’infini, 
la distribution de la variable X„ est identique à celle d’une autre variable aléatoire, 
notée X. Leurs fonctions de densité et de répartition sont alors identiques pour toutes 
les valeurs admissibles sur le support de la loi de X, comme l’illustre la figure 8.5. Dit 
autrement, lorsque n tend vers l’infini, les variables aléatoires X„ et X sont identique¬ 
ment distribuées. 
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▲ Figure 8.5 Illustration de la notion de convergence en loi 


Comme nous l’avions mentionné précédemment, la convergence en probabilité im¬ 
plique la convergence au loi, dans un sens particulier. En effet, si l’on note : 

X n 4 X (8.46) 

cela signifie que la suite définie par la différence entre les deux variables aléatoires X n 
et X converge (en probabilité) vers 0 : 

X„-x4o (8.47) 

Ainsi, lorsque n tend vers l’infini, il n’y a pratiquement pas de différences entre les 
réalisations de X„ et celles de X. Les deux variables ont donc la même fonction de 
répartition, ce qui implique que X n converge en distribution vers X : 

X n 4 X (8.48) 


Remarque : Au sens strict, la convergence en loi implique la convergence d’une sé¬ 
quence de variables aléatoires ( X n ) vers une variable aléatoire X ne dépendant pas 
de n : 


variable aléatoire variable aléatoire 

Mais parfois, on note la convergence en loi de la façon suivante : 

variable aléatoire loi asymptotique 

où £. désigne la loi de la variable aléatoire X. 


(8.49) 


(8.50) 
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Exemple 

Supposons que X„ converge en loi vers la variable X, telle que X ~ N (0,1). On peut alors 
noter plus simplement que : 

X, 4 (0,1) (8.51) 

Une des principales applications de la notion de convergence en loi est le théorème 
central limite. 



Théorème central limite 


Le théorème central limite permet d’étudier la convergence en loi d’une transfor¬ 
mée de la moyenne empirique de variables aléatoires indépendantes. C’est sans 
conteste le théorème fondamental de la statistique mathématique. 

Pourquoi s’intéresser spécifiquement au comportement de la moyenne empirique dans 
le cadre de la théorie de l’estimation ? Comme nous le verrons par la suite, un estima¬ 
teur est une variable aléatoire définie comme une fonction des variables de l’échan¬ 
tillon. Cette variable (ou séquence de variables aléatoires) dépend donc de la taille de 
l’échantillon n et il convient d’étudier son comportement asymptotique lorsque n tend 
vers l’infini. 

Quel est le lien avec la moyenne empirique ? Ici réside une des principales « astuces » 
de la théorie asymptotique : il est généralement possible d’exprimer n’importe quel 
estimateur comme une moyenne empirique ou comme une fonction de la moyenne 
empirique des variables aléatoires de l’échantillon. Ainsi, connaissant la convergence 
en loi d’une transformée de la moyenne empirique via le théorème central limite, on 
est en mesure d’en déduire, sous certaines hypothèses, la distribution asymptotique 
de la plupart des estimateurs usuels (maximum de vraisemblance, moindres carrés 
ordinaires, estimateurs de moments, etc.). 

Le théorème central limite constitue ainsi le théorème fondamental sur lequel se base 
l’essentiel de la théorie de l’estimation (► chapitre 9) et de la théorie de l’inférence 
(► chapitre 11). C’est dire l’importance de ce théorème pour la suite de cet ouvrage. 


2.1 


Vitesse de convergence 


À ce stade du chapitre, que savons nous concernant le comportement de la moyenne 
empirique F„ de variables aléatoires réelles F|.F„ indépendantes ? 


Y n = 



(8.52) 


Supposons que les variables aléatoires Y \,..., Y n soient par ailleurs identiquement dis¬ 
tribuées, ou à tout le moins, qu’elles aient la même espérance E (F,) = m, Vi = 1 
et la même variance ¥( F,-) = cr 2 , V/ = D’après la loi faible des grands nombres 

(théorème de Khintchine), nous savons que cette moyenne empirique converge en pro¬ 
babilité vers l’espérance m : 

F„ 4 m (8.53) 
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Ce résultat signifie que lorsque n tend vers l’infini, la moyenne empirique tend à être 
une variable aléatoire « dégénérée » : elle se réduit « presque » à une quantité dé¬ 
terministe égale à m (constante) puisque sa variance tend vers 0. Sous des conditions 
supplémentaires sur les variables Y it la variable Y„ peut même converger presque sûre¬ 
ment vers l’espérance m (loi forte des grands nombres ou théorème de Kolmogorov) : 


Y n m (8.54) 

Dans ce cas, lorsque n tend vers l’infini, la moyenne empirique n’est plus une variable 
aléatoire. Sa distribution pour n —» oo est une masse ponctuelle (► figure 8.1) et sa 
fonction de densité devient alors : 


lim fÿ ( x) = f (x) Vx € R 

n—xx) " 


/(V = { g 


si x = m 
0 sinon 


(8.55) 

(8.56) 


Ce résultat est problématique : lorsque la dimension n tend vers l’infini, la distribu¬ 
tion de la moyenne empirique est dégénérée et il n’est pas possible de construire une 
théorie de l’inférence à partir de cette distribution. 

La solution consiste à transformer la variable Y n de sorte à ce que la variable trans¬ 
formée converge en loi vers une distribution non dégénérée, c’est-à-dire une distri¬ 
bution dont la variance ne tende ni vers 0, ni vers l’infini (auquel cas la densité serait 
non définie). Comme nous allons le découvrir dans l’énoncé du théorème central li¬ 
mite, cette transformation est de la forme Vn (Y n - ml. Dans cette transformation, 
l’élément le plus important est le terme y/n qui détermine la vitesse de convergence 
de la variable transformée. 


Pourquoi multiplier la moyenne empirique par y/n ? Afin de mieux comprendre ce 
résultat, supposons pour simplifier que m = E (7,) = 0 et étudions le comportement 
asymptotique de la variable transformée n a Y„ pour a > 0. Sous l’hypothèse d’indé¬ 
pendance, il vient immédiatement que : 

E (n a T„) = n a E (?„) = n a m = 0 (8.57) 

2 

V (n"Ÿ„) = n 2a V ( 7 „) = n 2a — = n 2a ~'cr (8.58) 

Considérons trois cas suivant les valeurs du paramètre a : 


Premier cas. Si a > 1/2, alors 2a - 1 > 0. La variance de la variable n a Y n tend vers 
l’infini avec la dimension n, puisque : 

lim = cr 2 limn 2 " -1 = +oo car 2a - 1 >0 (8.59) 


Deuxième cas. Si a < 1/2 alors 2a - 1 < 0. Dans ce cas, la variance de rfY n tend 
vers 0 : 

lim ¥ (n a Ÿ„) = a 2 lim n 2a ~' =0 car 2a - 1 < 0 (8.60) 

Puisque E (« a 7„) = 0, la variable n a Y„ converge en probabilité vers m = 0. 

Troisième cas. Si l’on suppose que le paramètre a est précisément égal à 1/2, alors 
2a - 1 = 0. La variance de la variable > f Y„ devient : 

V(n"7„) = n 2lt -'o- 2 = nV = cr 2 (8.61) 
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Cette variance est donc indépendante de n. Lorsque n tend vers l’infini, la variance 
reste égale à <x 2 : _ 

lim V ( n a Y„ ) = cr 2 si a = 1/2 (8.62) 

Ainsi, seule la variable transformée s/n x F„ (obtenue pour a = 1/2) admet une va¬ 
riance non dégénérée lorsque la dimension n tend vers l’infini. De façon générale pour 
m ± 0, cela signifie que la variable transformée s/n {Y n - rnj converge en distribution 
vers une loi de probabilité non dégénérée. On dit que la variable F„ - m converge à la 
vitesse 1/ s/n, notée O (” -l/2 ) • 

À ce stade, nous connaissons la variance de la variable transformée s/n (F„ - m) 
lorsque n tend vers l’infini. La question est de savoir quelle est sa distribution. C’est 
précisément l’objet du théorème central limite. 


2.2 


Énoncé du théorème central limite 


U existe plusieurs versions du théorème central limite (► focus sur les théorèmes cen¬ 
tral limite), nous présentons ici celle énoncée par Lindeberg-Levy (1920). 

Ihép.rè.mft 9r,2 

Théorème central limite, Lindeberg-Levy 

Soit Fi. Y n une séquence de variables aléatoires indépendantes et identique¬ 

ment distribuées (i.i.d.) avec une espérance finie E(F/) = m et une variance finie 
Y (F,) = cr~, V/ = 1. n. Alors la moyenne empirique F„ = n ^ , Yi vérifie : 

Vü(F„ - m ) -4 Af(0,o- 2 ) (8.63) 


Le principal résultat du théorème central limite est que la transformée d’une moyenne 
empirique de variables i.i.d. converge en distribution vers une distribution normale. 
Il est important de noter que ce n’est pas la moyenne empirique F„ qui converge vers 
une distribution normale, mais sa transformée s/n (Y n - m ). Rappelons que nous avons 
vu deux résultats concernant la moyenne empirique de variables aléatoires Fj ,...,F„ 
indépendantes et identiquement distribuées : 

— P 

Loi faible des grands nombres : F„ —» m (8.64) 


Théorème central limite : s/n ( F„ - mj —> N (0,cr 2 ) (8.65) 

Le premier résultat (loi faible des grands nombres) nous donne la convergence en pro¬ 
babilité de la moyenne empirique F„. Ce résultat équivaut à une convergence en loi 
vers une distribution dégénérée de variance nulle. Le deuxième résultat (théorème 
central limite) nous donne la convergence en distribution d’une transformée de la 
moyenne empirique, à savoir s/n [Y n - m ). 11 ne faut pas confondre les deux résultats. 


Remarque : Rappelons que si une variable Z suit une loi normale N (Oif 2 ) alors Z/<x 
suit une loi A/' (0,1) (► chapitre 7). Ainsi, le résultat du théorème central limite peut 
aussi s’écrire sous la forme : 


sfn 


( \7 

Y n ~ m 


a 


A(0,1) 


( 8 . 66 ) 
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FOCUS 

Les différents théorèmes central limite 


U n’existe pas un théorème central limite, mais des 
théorèmes central limite. Ces théorèmes diffèrent 
suivant les hypothèses postulées sur les variables 

Y\ .Y„. Le théorème le plus connu est sans 

doute celui de Lindeberg-Levy qui considère une 
séquence de variables aléatoires indépendantes et 
identiquement distribuées (i.i.d.). Puisque ces va¬ 
riables ont la même distribution, elles ont la même 
espérance E (F/) = m et la même variance ¥ (Y,-) = 
cr 2 ,Vz = 1Une autre version du théo¬ 


rème central limite, celle de Lindeberg-Feller, 
relâche l’hypothèse d’une distribution commune 
et considère des variances potentiellement diffé¬ 
rentes, V (F,) + V {Yjj pour i j. Le théorème 
central limite de Lyapounov s’applique dans le 
cas de variables ayant des variances et des es¬ 
pérances hétérogènes. Enfin, d’autres versions re¬ 
lâchent l’hypothèse d’indépendance des variables 
Y et considèrent des formes faibles de dépen¬ 
dance. 
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Comme dans le cas de la loi faible des grands nombres, ce qu’il y a de remarquable 
dans le théorème central limite, c’est que ce résultat s’applique quelle que soit la dis¬ 
tribution des variables aléatoires Yi,...,Y„. La seule hypothèse est que ces variables 
doivent être indépendantes et identiquement distribuées (dans le cas du théorème de 
Lindeberg-Levy). Que les variables Y aient une distribution de Student, de Poisson, 
du khi-deux ou une distribution non standard, leur moyenne empirique transformée 
si(ÿ, - nij converge toujours en distribution vers une loi normale lorsque n tend 
vers l’infini. 

Afin d’illustrer cette propriété, menons l’expérience suivante. On considère des va¬ 
riables aléatoires indépendantes et identiquement distribuées selon une loi du khi-deux 
Y ~ x 2 (2). Vz = 1. n, avec E (Y) = 2 et V (Y) = 4. On applique la procédure sui¬ 

vante : 


1. Grâce à un logiciel, on tire des réalisations \y\ . y,,} des n variables {Yi.Y„}. Si 

n = 3, on obtient par exemple trois réalisations {0,7444; 1,5487; 1,8604}. 

2. On calcule une réalisation de la moyenne empirique Y„. Cette réalisation est notée 

— -I , _ 

y n = n 2_j , Di- Dans l’exemple précédent, on obtient y n = 1,3845. 

3. On considère la variable aléatoire transformée : 


Z„ = V/z 


X-E(Y) ] 

, V¥(Ÿ) J 



(8.67) 


À partir de la réalisation de la moyenne empirique ÿ n , on calcule une réalisation de 
cette variable transformée comme z„ = sfn Çÿ n - 2)/2. Dans l’exemple précédent 
on obtient une valeur de z n = -0,5331. 


4. On répété cette procédure 5 000 fois (étapes 1 à 3). On obtient alors 5 000 réalisa¬ 
tions de la variable z n . 


5. On construit un histogramme de ces 5 000 réalisations et l’on compare cet histo¬ 
gramme à la densité d’une loi normale centrée réduite N (0,1). 
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D’après le résultat du théorème central limite, on doit observer que lorsque la dimen¬ 
sion n est très grande, la distribution empirique de la variable transformée Z„ doit 
tendre vers une distribution normale centrée et réduite. Sur la figure 8.6 sont reportés 
(1) l’histogramme des 5 000 réalisations z n , (2) la fonction de densité d’une loi nor¬ 
male centrée réduite, Le. <f)(x) = 1/ V27rexp (- x 2 /2j , et (3) un estimateur kernel 
de la densité de la variable Z„, obtenus pour deux valeurs de n, à savoir n = 10 et 
n = 10000. Nous avons inclu un estimateur kernel dans le graphique car l’histo- 
gramme n’est pas un bon estimateur de la densité de Z„. L’estimateur kernel est plus 
précis et permet de mieux apprécier la convergence de la distribution de Z„ vers la loi 
normale. 


n = 10 n = 10000 



▲ Figure 8.6 Illustration du théorème central limite 


On vérifie sur la partie droite de la figure 8.6 que pour n = 10 000, il n’y pratiquement 
pas de différences entre la distribution empirique de la variable Z n et la densité d’une 
loi normale centrée réduite. On pourrait reconduire cette expérience pour n'importe 
quelle distribution des variables F, à la place de la distribution du khi-deux, en utilisant 
par exemple une loi de Student, une loi de Poisson, etc. Dans tous les cas, la moyenne 
empirique transformée Z„ converge vers une loi normale, dès lors que les variables F, 
sont indépendantes et identiquement distribuées. 

Le théorème central limite peut être étendu au cas multivarié. Supposons que les va¬ 
riables F, ne soient plus des scalaires, mais des vecteurs de k variables aléatoires. 


Y, = 

(LD 


Yi,\ 

Yi, 2 

. F a , 


( 8 . 68 ) 
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2 Un estimateur kernel d’une densité est un estimateur non-paramétrique défini comme une sorte de 
moyenne pondérée des observations de l’échantillon (cf. Greene, 2005), les poids étant définis par une 
fonction dite kemel. 
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On suppose que l’espérance et la matrice de variance-covariance des variables F; sont 
définies de la façon suivante (► chapitre 6) : 


E(F,) = 

OU) 


e(f,- 2 ) 


E(F a ) 


F 

U-, I) 


(8.69) 


V (F,) = 

(A,A) 


V(F n ) Cov{Y iX ,Y a ) 

Cov(Yi2,Yi i) ¥ (Ya) 

Xov(Y ik ,Yj i ) Cov ( Y ik , Y a) 


Cov(Yii,Y lk ) 

Cov(Y i2 ,Y ik ) 

V (Y ik ) , 


L’énoncé du théorème central limite multivarié est alors le suivant : 


(8.70) 


Théorème central limite multivarié 

Soit Fi. Y n une séquence de vecteurs de variables aléatoires de dimension k X 1. 

On suppose que ces vecteurs sont indépendants et identiquement distribués (i.i.d.) 
avec une espérance finie E(F,) = /i et une matrice de variance-covariance finie 
V (Yi) = Z, V/ = 1 Alors la moyenne empirique Y n — n > F, vérifie : 


V«(f„ - n) 4 n 

(Axl) 


(Axl) (AxA) 


(8.71) 
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2.3 


Distribution asymptotique 


Nous pouvons à présent introduire la notion de distribution asymptotique, qui peut 
être définie comme suit. 


Définition 8.6 

Si la variable aléatoire (séquence) X„ converge en loi vers X ayant pour fonction 
de répartition F (.), alors F (.) est la fonction de répartition de la distribution 
asymptotique de X„. 

X n —> loi asymptotique (8.72) 


Exemple 

Supposons que X„ converge en loi vers une variable X, telle que X ~ x 1 (<9 : 

X n ^/(v) ( 8 . 73 ) 

La distribution du khi-deux à v degrés de liberté est la distribution asymptotique de la variable 
X„, obtenue lorsque n tend vers l’infini. 


Bien souvent dans la suite de cet ouvrage, nous obtiendrons, grâce au théorème central 
limite, des résultats sur des estimateurs X n (variables aléatoires) du type : 

Vïï(X„ -m) 4 w(0,o- 2 ) (8.74) 
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Au sens strict, ce résultat ne veut pas dire que la distribution asymptotique de X„ 
est normale, puisque seule la variable transformée yfn (X„ - m) converge en distri¬ 
bution vers une loi normale. Ainsi, la distribution asymptotique de la variable trans¬ 
formée yfn(X„ - m) est une loi normale Af (0,cr 2 ). La question est de savoir si l’on 
peut déduire de ce résultat une approximation de la distribution asymptotique de la 
variable X n ? On admet que lorsque la dimension n est très grande, mais finie, la distri¬ 
bution de la variable X n est approximativement asymptotiquement distribuée selon 
une loi normale : 

X n % ÿ N^n,^- j (8.75) 

où le signe « signifie « approximativement distribué selon » et l’acronyme asij renvoie 
à la notion d’asymptotique (n grand). En effet, le résultat de l’équation (8.74) implique 
que pour n très grand : 

s/n (X n - m) N (0,cr 2 ) (8.76) 

On sait que pour a > 0, si la variable a X Z suit une loi normale A/^O.cr 2 ), alors Z 

suit une loi normale N (0,cr 2 /a 2 ) (► chapitre 7). Dès lors, si l’on suppose que n est une 
quantité finie (par exemple n = 100 000), on peut écrire : 

(8.77) 

De même, si la variable Z - b suit une loi normale )V(0 ,<t 2 ) , alors Z suit une loi 
normale N (ù,cr 2 ). Donc, le résultat de l’équation (8.74) peut être compris comme : 

(8.78) 

Péfinitign 9,7 

Soit une suite de variables aléatoires ( X„) telle que : 


yfn (X„ - m) -4 N (0,<x 2 ) (8.79) 

Lorsque la dimension n est finie et très grande, la variable X n est (approximati¬ 
vement) asymptotiquement distribuée selon une loi normale : 



X n -m a * N 10 


C’est pourquoi dans la plupart des ouvrages, dès lors que l’on a : 

Vn(X„-m)4 (V(0,o- 2 ) (8.81) 

on dit que la variable X n est asymptotiquement normalement distribuée, même si au 
sens strict c’est inexact puisque seule la variable yfn(X n - m) admet exactement une 
distribution asymptotique normale. 
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Définition 8.8 

L’espérance asyniptotique et la variance asymptotique de la variable X n , no¬ 
tées E„ vy (X,,) et Y aS y(X n ), correspondent à l’espérance et la variance de sa loi 
asymptotique. 

Exemple 

Par exemple, si une suite de variables aléatoires (X„) vérifie : 

(X„ - m) 4 N (O.cr 2 ) (8.82) 

Cela signifie que la distribution asymptotique de X„ est approximativement normale : 

j (8.83) 

On en déduit que : 

E j (X„) = m, Y asy (X n ) = (8.84) 
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Kg1 Théorème de Slutsky et méthode delta 

Une dernière question est de savoir comment à partir du théorème central limite ob¬ 
tenir la distribution de n’importe quel estimateur (variable aléatoire), qui peut s’écrire 
sous la forme d’une fonction de la moyenne empirique. Pour cela nous allons intro¬ 
duire deux outils : le théorème de Slutsky et la méthode delta. 


Ihéatèm&M 

Théorème de Slutsky 

Soient X„ et Y„ deux séquences de variables aléatoires telles que X n 
avec c ± 0, alors : 

X„ + Y n 4 X + c 
X„Y n 4 C X 

X„ d X 
Y n ^ C 


(8.85) 

( 8 . 86 ) 
(8.87) 


Exemple 

Supposons que X n —> A/'(/n,cr 2 ) et que Y n —> 2, alors la séquence de variables aléatoires 
définie par le ratio X n /Y„ converge en distribution : 


Xn 

Yn 




( 8 . 88 ) 


La méthode delta permet quant à elle de dériver la distribution asymptotique d’une 
variable aléatoire qui est une fonction d’une autre variable asymptotiquement norma¬ 
lement distribuée. 
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Béfinition 

Méthode delta 

Soit Z„ une séquence de variables aléatoires indicée par n telle que : 


Vü(Z„ - n) 4 jv(o,<x 2 ) 


(8.89) 


Si g{.) est une fonction continue, continûment différentiable et ne dépendant pas 
de n, alors : 


VÜ (g (Z„) - g(n )) 4 N 


0 , 


/ 3^ (x) 


\ dx 


H 


(8.90) 


où dg (x) /<9x| /r correspond à la dérivée partielle de la fonction g (x) par rapport à 
x évaluée au point x = //. 


Pour la définition de la méthode delta dans le cas d’une distribution multivariée, on 
pourra se reporter à Greene (2005). Considérons deux exemples d’application de cette 
méthode. 


Exemple 

On considère une suite de variables aléatoires (F„) telle que 

Vïïy„4Af(0,l) (8.91) 

Déterminons la distribution asymptotique de la séquence (exp (F,,)) à partir de la méthode 
delta. Pour ce faire on définit une fonction g(x) = exp(x). Cette fonction est continue, 
continûment différentiable et ne dépend pas de n. L’espérance asymptotique de la variable 
(exp (Y,,)) est donc égale à : 

g (E™, ( VÜF,,)) = g (0) = exp (0) = 1 (8.92) 

Afin de déterminer la variance asymptotique de cette séquence, on doit calculer la dérivée 
première de la fonction g (x) 

dg (x) 


dx 


exp (x) 


et l’évaluer au point x = E asy ( = 0. Il vient : 


/ dg(x) 
\ dx 


exp (0) = 1 

Dès lors, la variance asymptotique de la séquence (exp (F,,)) est égale à : 


J 


I dg{. y) 
\ dx 


7 USIJ 


( VnP„) : 


I 


(8.93) 


(8.94) 


(8.95) 


Par application de la méthode delta, on obtient finalement la distribution asymptotique de 
(exp(F,,)) : 

'Jn(g(Y„)-g( 0)) 4 N (0,1) 


ou encore : 


V/j(exp(F„) - 1) -> JV(0,1) 


N (0,1) 

(8.96) 

N (0,1) 

(8.97) 
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Exemple 

On considère n variables X\ ,...,X„ i.i.d. telles que E(X,) = a/3 et V(X,) = a/3 2 , avec a > 0, 
P > 0. Quelle est alors la distribution asympotique de la variable P définie par : 

P= — Yx i (8.98) 

an 

1= 1 

Pour répondre à cette question, remarquons tout d’abord que cette variable s’exprime en 
fonction de la moyenne empirique X„ des variables X; : 


P= ^ 
a 


(8.99) 


Sachant que les variables X|,...,X„ sont i.i.d., on peut appliquer le théorème central limite 
(Lindeberg-Levy) pour obtenir la distribution asymptotique de X n . On obtient immédiate¬ 
ment que : 

( 8 . 100 ) 


V« (x„ - a-/?) —> N (o,«/? 2 ) 


On définit alors une fonction g (x) = x/a. Cette fonction est continue et ne dépend pas de n. 
Par définition de la variable p, on a : 

P=^=g(x„) 

a v 7 

En utilisant la méthode delta, il vient : 

V« (g (X„) - g (ap)j 4 N 10 


î 

\ oz afi) 


afi 


( 8 . 101 ) 


( 8 . 102 ) 


dg(z) 

Ou la quantité —-— 


«p 


correspond à la dérivée dg (z) /dz évaluée au point E (x„) = E (X,) = 


ap. Dans notre cas, nous avons : 


g' (z) = 


dg(z) _ d (z/a) _ J_ 
dz dz a 


Donc 


On en déduit que : 


dg(z) 


dz 


= g’ (aP) = - 

<r(i a 


On obtient au final la distribution de p : 

yfTi(p-p)^N[ 0 


t 

a 


(8.103) 

(8.104) 

(8.105) 

(8.106) 
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3 questions à 

Andreea Danci 

Analyste risques, General Electric 
Money Bank 



Quel est votre parcours professionnel et votre mission 
actuelle chez General Electric Money Bank ? 

En 2011, à l'issue de mon master à Orléans, j'ai été 
embauchée chez General Electric Money Bank. Je travaille 
actuellement au sein du département de gestion et 
évaluation des Risques. En tant qu'Analyste Risques Senior, 
je suis en charge du suivi du risque d'une partie du 
portefeuille Retail et Corporate. Mes principales 
responsabilités comprennent notamment l'analyse des 
modèles de scoring, la construction de nouveaux modèles 
d'octroi ou de comportement, la validation annuelle 
(demandée par Fédéral Reserve) de tous les modèles utilisés 
en partenariat avec la Global Model Validation Team. Je 
travaille en outre sur des études statistiques ponctuelles en 
collaboration avec les équipes des départements finance, 
comptabilité, pricing et marketing. 

Dans le cadre de votre activité, en quoi les notions de 
convergence et de propriétés asymptotiques vous 
sont-elles utiles ? 

Ces notions sont omniprésentes dans mon activité, même si 
cela ne se traduit pas nécessairement par des 
démonstrations. Typiquement, nous utilisons régulièrement 
de nombreux tests statistiques (tests sur les paramètres des 
modèles, tests de spécification, tests sur les prévisions). Or, 
les distributions de la plupart des statistiques de tests sont 
des distributions asymptotiques. De même, nous faisons 
implicitement référence à des notions de convergence 
lorsque nous utilisons de grands échantillons : si le modèle 
est bien spécifié, l'utilisation d'estimateurs convergents nous 
permet alors d'obtenir des estimations très précises des 
probabilités de défauts. 

Sous quels types de logiciels travaillez-vous ? 

Nous travaillons sur le logiciel SAS en raison de la volumétrie 
des données que nous avons à manipuler. Ses 
fonctionnalités sont multiples : utilisation des procédures 
prédéfinies, automatisation de traitements répétitifs avec le 
langage « Macro », création de sorties directement 
exploitables en reporting, etc. ■ 
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Les points clés 

Pour une séquence de variables aléatoires, il existe quatre modes possibles de 
convergence (presque sûre, probabilité, moyenne quadratique et convergence en 
loi). 


-» La convergence presque sûre et la convergence en probabilité impliquent que la 
séquence de variables aléatoires considérée converge vers une constante. 


La loi faible des grands nombres indique que la moyenne empirique de variables 
aléatoires indépendantes et identiquement distribuées (i.i.d.) converge en proba¬ 
bilité vers l’espérance de ces variables. 


La convergence en loi implique que la variable considérée converge vers une dis¬ 
tribution, dite distribution asymptotique. 


Le théorème central limite indique qu’une transformée de la moyenne empirique 
de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) converge 
en loi vers une loi normale. 


-O 


T D 
O 
C 
=3 
Q 


° ’g 

I. 


© 


en 


> 

Cl 

O 

U 


249 








Copyright © 2015 Dunod. 


Partie 2 Probabilités et variable aléatoire 


EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquer si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Convergence 

a. La convergence en loi implique la convergence en 
probabilité. 

b. La convergence en probabilité implique la conver¬ 
gence en loi. 

c. La convergence presque sûre implique la conver¬ 
gence en loi. 

d. La convergence presque sûre implique la conver¬ 
gence en probabilité. 

e. La convergence en probabilité implique la conver¬ 
gence presque sûre. 

Si Y\ sont des variables aléatoires indépen¬ 
dantes et identiquement distribuées, alors : 

a. La moyenne empirique converge presque sûrement 
vers l’espérance. 

b. La moyenne empirique converge en probabilité vers 
l’espérance. 

c. La moyenne empirique converge en loi vers l’espé¬ 
rance. 

d. La moyenne empirique converge en loi vers une loi 
normale. 

e. La moyenne empirique centrée sur l’espérance et 
multipliée par sfn converge en loi vers une loi nor¬ 
male. 

Si une variable Z„ est asynipotiquement norma¬ 
lement distribuée, cela signifie que : 

a. La variable Z„ converge en distribution vers une loi 
normale centrée réduite. 

b. La variable Z„ converge en distribution vers une loi 
normale. 


c. La variable sfn(Z„ - E(Z„)) converge en distribu¬ 
tion vers une loi normale. 

d. La variable sfn(Z„- E(Z„)) converge en distribu¬ 
tion vers une loi normale centrée réduite. 

e. Pour une dimension n grande et finie, la variable 
Z„ est approximativement distribuée selon une loi 
normale. 

Soit 7]. Y„ une suite de n variables aléatoires et 

soit Y„ la moyenne empirique : 

a. Le théorème central limite s’applique si les variables 
7, sont i.i.d. 

b. Le théorème central limite s’applique si les variables 
7, sont indépendantes mais avec des espérances dif¬ 
férentes. 

c. Le théorème central limite s’applique si les variables 
y, sont indépendantes mais avec des variances diffé¬ 
rentes. 

d. Le théorème central limite s’applique si les variables 
y ; sont indépendantes mais avec des espérances et 
des variances différentes. 

e. Le théorème central limite s’applique si les variables 
y, sont dépendantes mais identiquement distribuées. 


Exercice 

Convergences 

Soient deux variables aléatoires réelles X| et X 2 indé¬ 
pendantes et distribuées chacune selon une loi N (0,cr 2 j. 
On considère la variable transformée Y définie par la re¬ 
lation : 

y = ^X 2 + X 2 (8.107) 

On admet que cette variable Y suit une loi de Rayleigh 
avec pour fonction de densité : 

fv (l/; w 2 ) = ex p 2^2 j + °°l (8.108) 
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1. Quelle est la loi de la variable Y 2 /a 2 ? En déduire la 
valeur deE(T 2 ) et deY(r 2 ). 

2 . Soit Y . . Y„ une suite de variables aléatoires i.i.d. 

de même loi que Y. On considère une variable trans¬ 
formée définie par : 



Montrez que cette suite de variables aléatoires 
converge en probabilité vers tr 2 . 

3 . On admet que les variables T 2 ,. Y 2 sont i.i.d. de 

même loi que Y 2 . Montrez que la variable cr 2 est 
asymptotiquement normalement distribuée. 


Sujets d'examen 


Théorème central limite (Bibmath.net) 

Un fournisseur d’accès à Internet met en place un point 
local d’accès, qui dessert 5 000 abonnés. À un instant 
donné, chaque abonné a une probabilité égale à 20 % 
d’être connecté. Les comportements des abonnés sont 
supposés indépendants les uns des autres. 


1. On note X la variable aléatoire égale au nombre 
d’abonnés connectés à un instant t. Quelle est la loi 
de X ? Quelle est son espérance, son écart-type ? 


2 . On pose : 


X - 1 000 

V8ÔÔ 


( 8 . 110 ) 


Justifier précisément que l’on peut approcher la loi 
de Y par la loi normale N (0,1 ). 

3 . Le fournisseur d’accès souhaite savoir combien de 
connexions simultanées le point d’accès doit pouvoir 
gérer pour que sa probabilité d’être saturé à un ins¬ 
tant donné soit inférieure à 2,5 %. En utilisant l’ap¬ 
proximation précédente, proposer une valeur appro¬ 
chée de ce nombre de connexions. 


Convergences (Université d’Assas) 

Soit (X n ) une suite de variables aléatoires discrètes telles 
que V/j > 2 : 

Pr(X„ = -n) = Pr (*,,=«) = (8.111) 

2n L 

Pr(X„ = 0) = 1 —îr (8.112) 

n 1 

1. Déterminer la limite en probabilité de la suite (X n ). 

2 . La suite (X„) converge-t-elle en moyenne quadra¬ 
tique vers cette même limite ? 

8 Théorème central limite (Bibmath.net) 

Il arrive assez souvent que le nombre de réservations 
pour une liaison aérienne soit supérieur au nombre de 
passagers se présentant effectivement le jour du vol. Cela 
est dû à des empêchements imprévisibles de certains 
passagers et à une politique systématique de certains 
d’entre eux qui réservent des places sur plusieurs vols de 
façon à choisir au dernier moment celui qui leur convient 
le mieux (en raison de la concurrence, et selon les tarifs 
choisis, les compagnies ne pénalisent pas les clients qui 
se désistent et ne font payer effectivement que ceux qui 
embarquent). 

Pour compenser ce phénomène, une compagnie aérienne 
exploitant un avion de 300 places décide de faire de la 
surréservation (surbooking) en prenant pour chaque vol 
un nombre n > 300 de réservations. S’il se présente plus 
de 300 passagers à l’embarquement, les 300 premiers 
arrivés prennent leur vol et les autres sont dédommagés 
financièrement. 

1. On considère que les passagers sont mutuellement 
indépendants et que la probabilité de désistement de 
chacun d’eux est égale à 10 %. On note n le nombre 
de réservations prises par la compagnie pour un vol 
donné et S n le nombre (aléatoire) de passagers se 
présentant à l’embarquement pour ce vol. Donner la 
loi de S,„ E(S„) et Y (S„). 

2 . Le directeur commercial de la compagnie aimerait 
connaitre la valeur maximale de n telle que 

Pr(S„ < 300) >0,99 (8.113) 

En utilisant le théorème central limite, proposer une 
solution approchée de ce problème. 
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Partie 


Statistique 

mathématique 


O n oppose généralement la statistique descriptive (► partie 1), dont l'objectif est de décrire 
une réalité statistique (typiquement un échantillon ou une population), à la statistique 
mathématique dont l'objectif est de modéliser cette réalité et d'apporter des outils d'aide à 
la décision. 


La statistique mathématique est fondée sur deux piliers : la théorie de l'estimation et la théorie des 
tests ou inférence. Une des méthodes d'estimation les plus utilisées est la méthode dite du maximum 
de vraisemblance qui peut être appliquée à l'estimation de paramètres de modèles linéaires ou non 
linéaires. 





Estimation 



Maximum de vraisemblance 
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Chapitre 


U n laboratoire pharmaceutique souhaite étu¬ 
dier l’effet thérapeutique d’un nouveau mé¬ 
dicament sur une population cible. Il réalise 
pour cela une étude clinique selon un protocole pré¬ 
cis auprès d’un échantillon d’individus issus de cette 
population. Pour tous les individus de cet échan¬ 
tillon, on mesure alors différentes variables d’inté¬ 
rêt (réaction au médicament, effets secondaires, etc.) 
et l’on peut ainsi calculer des statistiques descrip¬ 
tives sur cet échantillon. Mais l’objectif final n’est 


pas de décrire les effets du médicament sur les indi¬ 
vidus de l’échantillon : il s’agit d’évaluer les effets 
potentiels du médicament sur les individus de la po¬ 
pulation cible dans son ensemble. 

La question générale qui se pose est alors de sa¬ 
voir comment passer d’une information portant sur 
un échantillon à une information portant sur la po¬ 
pulation ? C’est précisément l’objet de la théorie de 
l’estimation. 
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Estimation 


Plan 

Q Échantillonnage et échantillon. 256 

O Estimateur . 259 

B Propriétés à distance finie. 264 

Fl Propriétés asymptotiques . 273 

PI Estimation. 279 


Pré-requis 

Connaître les différentes notions de convergence (► chapitre 8). 
Connaître la loi faible des grands nombres. 

-» Connaître le théorème central limite. 

O bj ect ifs _ 

Comprendre la notion d'échantillon aléatoire. 

Comprendre la notion d'estimateur. 

Savoir étudier les propriétés à distance finie d'un estimateur. 
Savoir étudier les propriétés asymptotiques d'un estimateur. 
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L ’objectif d’une estimation est de révéler de l’information sur une caractéris¬ 
tique de la population à partir d’un échantillon. Nous nous limiterons dans ce 
chapitre à la présentation des approches paramétriques 1 de l’estimation : dans 
ce cadre, on cherche à révéler la valeur d’un ou de plusieurs paramètres, associés à 
la distribution de la caractéristique d’intérêt dans la population. On construit pour cela 
un estimateur. Un estimateur est une variable aléatoire, définie comme une fonction 
des variables de l’échantillon. 

La démarche du statisticien est alors la suivante : on commence par étudier les pro¬ 
priétés de l’estimateur. Cela revient à analyser certaines caractéristiques de sa distri¬ 
bution : son espérance, sa variance etc. L’idée générale est de vérifier théoriquement 
si les réalisations de cette variable aléatoire ont de grandes chances d’être « proches » 
de la vraie valeur du paramètre que l’on souhaite estimer. On peut aussi comparer 
différents estimateurs afin de choisir le plus performant : on introduit pour cela les 
notions d’estimateur optimal et d’estimateur efficace. Une fois que l’on dispose d’un 
« bon » estimateur, on l’utilise pour obtenir une estimation. Une estimation ponctuelle 
n’est rien d’autre que la réalisation de l’estimateur obtenue à partir de la réalisation de 
l’échantillon, c’est-à-dire à partir des données statistiques ou des observations. Pour 
obtenir une estimation, il suffit donc d’appliquer sur les données la « formule» qui 
définit l’estimateur en fonction des variables de l’échantillon. Cette phase est généra¬ 
lement réalisée à l’aide d’un logiciel d’économétrie ou d’un tableur. Il est aussi pos¬ 
sible de fournir un intervalle de confiance, c’est-à-dire un encadrement sur la valeur 
du paramètre que l’on souhaite estimer. Cet encadrement permet de rendre compte de 
l’incertitude autour de la prévision ponctuelle. 

Cette démarche de l’estimation se situe au cœur de très nombreux domaines d’appli¬ 
cation dans la vie courante et la vie des entreprises : sondages politiques, enquêtes 
d’opinion, enquêtes économiques, méthodes de scoring, analyses marketing quantita¬ 
tives, modèles de prévision, etc. Avant d’aborder certains de ces exemples, nous allons 
à présent introduire les notions d’échantillon et d’estimateur, avant de nous intéresser 
aux propriétés attendues des estimateurs. 


D Échantillonnage et échantillon 

L’objectif de cette section est de présenter le concept d’échantillon aléatoire. Ce 
concept est particulièrement important car il fonde la théorie de l’estimation. 

Le problème général est le suivant : on souhaite étudier une caractéristique (appe¬ 
lée aussi caractère ou variable statistique) associée à des individus appartenant à 
une population (► chapitre 1). Rappelons qu’une population est un ensemble, fini ou 
non, d’éléments que l’on souhaite étudier. Il peut s’agir par exemple d’êtres humains 
(adultes, enfants, chômeurs, salariés, etc.), d’animaux ou encore d’objets (entreprises, 
voitures, ordinateurs, incendies, accidents, etc.). La caractéristique étudiée peut être 
qualitative (par exemple la catégorie socio-professionnelle de l’individu : cadre, em¬ 
ployé, etc.) ou quantitative (par exemple la taille ou le salaire de l’individu). 
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1 On oppose les méthodes d’estimation paramétriques aux méthodes non-paramétriques ou semi- 
paramétriques. Les méthodes paramétriques reposent sur l'hypothèse d'une distribution caractérisée par 
un nombre fini de paramètres (par exemple une loi normale). 
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Considérons un exemple simple : supposons qu’une entreprise de l’industrie textile 
souhaite étudier le poids et la taille (caractéristiques quantitatives) des français et 
françaises de plus de 18 ans (population de taille finie), afin d’ajuster au mieux ses 
produits à la morphologie de ses clients. Pour mener à bien cette étude, l’entreprise a 
deux solutions : le recensement ou l’échantillonnage. 

EgfiruüPiiM 

Un recensement consiste à mesurer, ou observer, la (ou les) caractéristique(s) 
d’intérêt de façon exhaustive pour tous les individus de la population. 


Une telle solution n’est bien évidemment applicable que lorsque la taille de la popula¬ 
tion étudiée est relativement faible. Ainsi, à l’époque d’Adam et Eve, un recensement 
reviendrait, dans notre cas, à peser et à mesurer ces deux individus. Avec deux couples 
de mesures (80 kg/l ,80 m et 55 kg/1,60 m par exemple), on obtiendrait une informa¬ 
tion complète sur le poids et la taille de la population. Toute méthode d’estimation et 
de test statistique (inférence) serait alors inutile. Mais aujourd’hui, si l’on admet qu’il 
y a près de quarante millions de français et de françaises de plus de 18 ans, on imagine 
facilement que le recensement est de fait impossible - pour de nombreuses entreprises : 
le coût est beaucoup trop élevé. Dans la plupart des cas, il est nécessaire de recourir 
à la seconde solution : l’échantillonnage. L’échantillonnage se définit comme la mé¬ 
thode de construction d'un échantillon. 

Au sens strict, un échantillon est un sous-ensemble de la population. 
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Reprenons notre exemple. Au sens strict, un échantillon consiste en une collection 
d’individus sélectionnés dans la population française de plus de 18 ans. Le nombre 
d’individus sélectionnés dans l’échantillon correspond à la taille de l’échantillon, 
notée n. On parle alors de «-échantillon. 

Quel est l’intérêt de constituer un échantillon ? L’idée est d’étudier les caractéristiques 
d’intérêt (poids et taille dans notre cas) pour les individus sélectionnés dans l’échan¬ 
tillon afin d’en tirer de l’information sur ces mêmes caractéristiques pour l’ensemble 
de la population. Par conséquent, d’un côté la dimension n de l’échantillon doit être 
suffisamment importante pour que l’on puisse obtenir une information fiable sur la 
population, mais d’un autre côté elle doit être la plus petite possible afin de limiter le 
coût de l’enquête. 

Une question se pose à ce stade : comment choisir les individus qui composent 
l’échantillon ? On distingue deux grandes méthodes d’échantillonnage. La première 
repose sur un choix déterministe des individus. On parle dans ce cas d’échantillon dé¬ 
terministe (ou certain) : les individus de l’échantillon ne sont pas choisis « au hasard ». 
Un exemple lugubre est celui de la décimation . Supposons que tous les individus de 

2 Le seul exemple de recensement en France est celui mené de façon régulière par l'Institut national de 
la statistique et des études économiques (INSEE). Il s'agit d’une enquête portant sur différentes caractéris¬ 
tiques socio-économiques de la population de la France. 

3 La décimation était un châtiment appliqué dans l’armée romaine, qui visait à punir les soldats apparte¬ 
nant à une unité s'étant mal conduite au combat. Un soldat sur dix de cette unité était alors mis à mort. 
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la population soient numérotés de 1 à N, où N désigne la taille de la population. On sé¬ 
lectionne alors de façon systématique tous les individus portant les numéros 1,10, 20, 
30, etc. D'autres exemples d’échantillons certains reposent sur une stratification de la 
population : on « découpe » la population suivant un grand nombre de caractéristiques, 
autres que les caractéristiques d’intérêt. On répartit, par exemple, la population fran¬ 
çaise suivant différents critères socio-économiques (catégorie socio-professionnelle, 
âge, nombre d’enfants, lieu de résidence, etc.). On cherche ensuite à reproduire exac¬ 
tement les mêmes proportions sur ces différents critères dans l’échantillon. On parle 
alors d’échantillon par stratification ou d’échantillon représentatif. 

Mais en pratique, la méthode la plus utilisée est celle de l’échantillonnage aléatoire : 
on constitue dans ce cas un échantillon aléatoire. 


Définition 9,3 


Un échantillon aléatoire est un échantillon dont les individus sont tirés au hasard 
parmi la population. 

Le tirage de l’échantillon peut se faire avec remise (un même individu de la population 
peut apparaître plusieurs fois dans l’échantillon) ou sans remise (chaque individu de 
la population ne peut apparaître qu’une seule fois dans l’échantillon). 

Le point essentiel de la notion d’échantillon aléatoire est que les caractéristiques as¬ 
sociées aux individus de l’échantillon sont, du fait du tirage au sort des individus, 
des variables aléatoires. Jusqu’à présent, nous n’avons pas évoqué la nature stochas¬ 
tique (aléatoire) ou déterministe (constante) des caractéristiques d’intérêt. Il est parfois 
compliqué de répondre à cette question, puisqu’il s’agit presque d’un débat philoso¬ 
phique qui renvoie à la vision prédéterminée ou non que l’on se fait du monde. Mais 
dans le cas de notre exemple, ce statut est clair : à une date donnée, on peut supposer 
que le poids et la taille d’un individu de la population française sont des quantités 
déterministes (certaines). Notons x le poids d’un individu, supposé déterministe, et 
imaginons que notre population soit constituée de quatre individus (N = 4) : Pierre, 
Paul, Jacques et Jean. On suppose que leurs poids exprimés en kilogrammes sont res¬ 
pectivement égaux à : 



Si l’on souhaite constituer un échantillon aléatoire de taille n = 2 (sans remise), il 
convient de tirer deux individus parmi les quatre individus de la population et d’ob¬ 
server leur poids. Ainsi, on peut obtenir une réalisation de l’échantillon du type : 


(^Pierrei^Jean) ~ (65,73) 

Mais l’on peut aussi bien obtenir une réalisation du type : 



ou encore 


(xPauli % Jacques J — (82,68) 


Ainsi, les valeurs observées pour les poids des deux individus de l’échantillon sont 
aléatoires : on peut obtenir (65,73), (73,68), (82,68) ou toute autre combinaison des 
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valeurs (65, 73, 82, 68). Même si le poids des individus de la population est supposé 
déterministe (certain), le poids du premier et du deuxième individu de l’échantillon 
sont des variables aléatoires, tout simplement parce qu’avant le tirage de l’échantillon, 
on ne sait pas qui seront ces deux individus sélectionnés. Notons X] le poids du pre¬ 
mier individu de l’échantillon et Xi le poids du deuxième. Un échantillon aléatoire 
avec n — 2 s’écrit donc sous la forme : 

(XuX 2 ) (9.1) 

Définitions 

Au sens large, un «-échantillon aléatoire est une collection (ou une suite) de 
variables aléatoires, noté : 

(Aj. X n ) (9.2) 

où Xi désigne la valeur de la caractéristique d’intérêt associée au i eme individu 
sélectionné au hasard parmi la population pour constituer l’échantillon. 


Remarque : Attention, il convient de ne pas confondre Y échantillon aléatoire (col¬ 
lection de variables aléatoires indiquées par une lettre majuscule) et la réalisation de 
cet échantillon (notée avec des lettres minuscules) : 

Échantillon : (X| ,...,X„) (9.3) 

Réalisation (observations) : (x\ . x n ) (9.4) 

Dans notre exemple, (xi,jo) = ( x Paul < x Jacques) = (82,68) est une réalisation particu¬ 
lière de l’échantillon aléatoire (X) ,X 2 )- 
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2.1 


Estimateur 

Principe général de l'estimation 


Comme l’indique la figure 9.1, l’objectif d’une procédure d’estimation est de révéler 
de l’information sur le (ou les) paramètre(s) d’intérêt de la population à partir d’un 
échantillon aléatoire. Le problème général est le suivant. On suppose que la caracté¬ 
ristique d’intérêt dans la population, notée X, est une variable aléatoire H définie sur un 
univers probabilisé (X (O) ,T, Pr). La loi de probabilité de cette variable aléatoire est 
représentée, soit par une fonction de densité si X est une variable continue, soit par 
une fonction de masse si X est une variable discrète. On suppose que cette fonction 
de densité ou de masse dépend d’un paramètre 6, qui est a priori inconnu et que l’on 
cherche à estimer. Soit fx (x; 6), Vx 6 X (Q) la fonction de densité ou de masse de la 
variable X. 

Pour estimer le paramètre 6, on dispose d’un «-échantillon (Aj,... ,X n ) dans lequel 
toutes les variables aléatoires Aj, pour i = !,...,«, sont supposées indépendantes 


4 Dans l’exemple de la section précédente, nous avions supposé que les caractéristiques d’intérêt (le poids 
et la taille en l’occurrence) étaient des variables non stochastiques. En général, on suppose au contraire que 
la variable statistique étudiée est aléatoire dans la population. Par conséquent, tout échantillon, même issu 
d’une méthode de sélection déterministe, est une collection de variables aléatoires. 
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et identiquement distribuées (i.i.d.), de même loi que X. On note (x\,... ,x„) la réa¬ 
lisation de cet échantillon : cette réalisation correspond aux données (fichier Excel, 
tableau de valeurs, etc.) utilisées pour l’estimation. 


Paramètres 

(inconnus) 



A Figure 9.1 Principe général de l'estimation 

Exemple 

On suppose que la durée de vie d’un équipement, notée D, peut être représentée par une 
variable aléatoire positive, admettant une distribution exponentielle de paramètre A > 0. 
Ce paramètre est inconnu. Afin de l’estimer, on dispose de six relevés pour lesquels on 
a pu observer la durée écoulée (exprimée en heures) avant la rupture de l’équipement : 
(100,102,95,78,135,98). Ces six valeurs coiTespondent à la réalisation d’un échantillon aléa¬ 
toire de taille n = 6, noté (D\ ,...,D 6 ), où les variables D, pour i = 1sont i.i.d. de même 
loi que D (loi exponentielle). 


2.2 


Un estimateur est une variable aléatoire 


La théorie générale de l’estimation repose sur la notion d’estimateur. 

BiüüUiajLâJ 

Un estimateur du paramètre 6 est une fonction des variables aléatoires X\ ,...,X n 
de l’échantillon. Cet estimateur, noté 6, est défini par : 

Ô=g(X l . X n ) (9.5) 


Bien évidemment, cette fonction ou cette «formule» g(.) n’est pas choisie au ha¬ 
sard. L’idée est de trouver une fonction qui combine les réalisations de l’échantillon 
de sorte à révéler de l’information sur le paramètre d’intérêt 0. Nous verrons com¬ 
ment déduire cette fonction, c’est-à-dire comment construire un estimateur, dans la 
sous-section 2.3 consacrée aux méthodes d’estimation. Mais à ce stade, considérons 
quelques exemples d’estimateurs. 


260 








Chapitre 9 Estimation 


Exemple 

Supposons que les variables aléatoires (Y\ . Y„) soient i.i.d. de même loi que Y, où 

Y ~ yv(/n,<r 2 ). La moyenne empirique (statistique descriptive) : 


Y 


n 



(9.6) 


est un estimateur (de l’espérance tri). En effet, Y„ est une fonction des variables Y\,Y 2 ,...,Y„, 
telle que : 

ÿ„ = -(y, + ... + K„) = 0(y . . (9.7) 

n 


Exemple 

Supposons que les variables aléatoires (Y\,...,Y„) soient i.i.d. de même loi que Y, avec 
K (K) = m et Y (Y) = cr 2 . La variance empirique corrigée : 

< 9 - 8 > 

/=1 

est un estimateur (de la variance cr 2 ). 

Les deux exemples précédents illustrent le fait que toute statistique descriptive de 
l’échantillon (► chapitre 1) est un estimateur, puisque ces statistiques sont générale¬ 
ment définies comme des fonctions (somme, produit, etc.) des variables aléatoires de 
l’échantillon. Toutefois, il est possible de définir des estimateurs qui ne sont pas des 
statistiques descriptives usuelles. 

, Effifiriêté 

Un estimateur est une variable aléatoire, puisque c’est une fonction des variables 
aléatoires de l’échantillon. 

Si l’on introduit des oranges dans un mixeur, on obtient généralement du jus d’orange. 
Il en va de même pour les variables aléatoires. Comme l’illustre la figure 9.2, si 
l’on introduit les variables aléatoires X\,...,X n du «-échantillon dans une fonction 
(somme^ produit, etc.), il en ressort une variable aléatoire. C’est pourquoi un esti¬ 
mateur 9 - g (Xi ,...,X„) est une variable aléatoire. 
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Variables aléatoires (échantillon) 
x, x 2 x 3 x, x n 



Fonction g(.) 


T 

Un estimateur est 
une variable aléatoire 


▲ Figure 9.2 Un estimateur est une variable aléatoire 
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Quelle est l’implication de cette propriété? Si l’estimateur 8 est une variable aléa¬ 
toire (continue ou discrète) , elle est nécessairement caractérisée par une fonction de 
distribution (fonction de densité dans le cas continu ou fonction de masse dans le cas 
discret). 

Définition 9.6 

La distribution de probabilité d’un estimateur (ou d'une statistique) est appelée 

distribution d’échantillonnage. 


Exemple 


Soit un échantillon (X|,X 2 ) de variables i.i.d. telles que X,- ~ N [g,a 2 j pour i = 1,2. On 
admet que p = (Xi + X 2 )/2 est un estimateur du paramètre g. La loi exacte de l’estimateur Jt 
est alors la suivante : 


8 = 


X, +X 2 
2 



(9.9) 


En effet, nous savons que la somme de deux variables normales indépendantes suit une loi 
normale. Par ailleurs, 


E(/ï) = E(^y^) = |(E(X,) + E(X 2 ))= ^ = g (9.10) 

VGï) = v(^4^) = ^(V(X,) + V(X 2 ))= Ïj- = y (9.11) 

puisque les variables X\ et X 2 sont indépendantes et que leur covariance est nulle. 


Comme pour toute variable aléatoire (► chapitre 6), on doit distinguer la variable aléa¬ 
toire elle-même, de sa réalisation. Cette réalisation correspond à une estimation. 


BfifimlifiOiLZ 


Une réalisation de l’estimateur 8 associée à une réalisation (xi. x „) de l’échan¬ 

tillon correspond à une estimation (ponctuelle) du paramètre 8. L’estimation 
est généralement notée 8 (x) pour la différencier de la variable aléatoire (estima¬ 
teur)?: 


8(x) = . . . 


(9.12) 


Une estimation n’est donc rien d’autre que l’application de la « formule » 
g (X|. X n ) aux données, c’est-à-dire aux réalisations de l’échantillon (xj ,...,x n ). Re¬ 

prenons l’exemple précédent. 


Exemple 

Soit un échantillon (X|,X 2 ) de variables i.i.d. telles que X, ~ JV(p,<x 2 ) 
admet que la variable 

_ X, + X, 

8 = — 


pour i = 


1,2. On 
(9.13) 


5 En règle générale, les estimateurs sont des variables aléatoires continues car les paramètres 6 sont définis 
sur des parties de R. 

6 Nous verrons dans la section 5 qu'il existe plusieurs concepts d'estimation (estimation ponctuelle, par 
intervalle de confiance et par densité). Par défaut, lorsque rien n’est précisé, une estimation correspond 
à une estimation ponctuelle : il s'agit tout simplement de la réalisation de l’estimateur obtenue sur un 
échantillon particulier. 
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est un estimateur de l’espérance g. Pour une réalisation (x\,X 2 ) - (10,4) de l’échantillon, on 
obtient une estimation (ponctuelle) du paramètre g égale à : 


iHx) = 


10 + 4 


= 7 


(9.14) 


Ainsi à ce stade du chapitre, il convient de bien distinguer la notion d’estimateur de 
la notion d’estimation (réalisation) : 

Estimateur (variable aléatoire) : 9 (9.15) 

Estimation (constante) : 9(x) (9.16) 


2.3 


Méthodes d'estimation 


On peut concevoir une méthode d’estimation comme une sorte de recette de cuisine 
qui permet d’obtenir un estimateur 9 à partir des ingrédients X\ ,...,X n . Plus formelle¬ 
ment, on définit une méthode d’estimation de la façon suivante. 

Définition 9.8 

Une méthode d’estimation est une méthode mathématique qui permet de dériver 
la forme fonctionnelle d’un estimateur 9 = g(X\ ,...,X„) à partir des variables 
aléatoires de l’échantillon X\ ,...,X n . 


XJ 
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Pour un même problème, on peut parfois appliquer plusieurs méthodes d’estimation. À 
chaque méthode d’estimation correspond un estimateur particulier. Si l’on se restreint 
aux seules méthodes d’estimation paramétriques, il existe de nombreuses méthodes 
suivant le problème étudié et les hypothèses retenues. Citons par exemple : 

- la méthode des moindres carrés ordinaires (► chapitre 2) ; 

- la méthode des moindres carrés généralisés ; 

- la méthode du maximum de vraisemblance (► chapitre 10) ; 

- la méthode des moments généralisés ; 

- la méthode des variables instrumentales ; 

- la méthode des doubles moindres carrés ordinaires. 

KCI Propriétés d'un estimateur 

La question est de savoir ce qu’est un « bon » estimateur. Quelles propriétés doit sa¬ 
tisfaire un estimateur pour être considéré comme performant ? Pour répondre à ces 
questions, nous allons nous concentrer sur la distribution d’échantillonnage de l’esti¬ 
mateur. En étudiant cette distribution, on cherche à vérifier théoriquement si l’esti¬ 
mation (réalisation de l’estimateur) a de fortes chances d’être « proche » de la vraie 
valeur (inconnue) du paramètre 9 que l’on souhaite estimer. 

Dans l’illustration de la figure 9.3, sont représentées les fonctions de densité de trois 
estimateurs, notés A, B et C. 
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▲ Figure 9.3 Comparaison d’estimateurs 


La vraie valeur de 6 est fixée à 2 (barre verticale). Intuitivement, les réalisations de 
l’estimateur A ont de grandes chances d’être assez éloignées de la vraie valeur de G. En 
moyenne ses réalisations sont centrées sur 4, valeur qui correspond à son espérance. 
On dit que l’estimateur A est biaisé : son espérance est différente de la vraie valeur du 
paramètre à estimer. En revanche, les deux estimateurs B et C ne sont pas biaisés. Si 
l’on effectue plusieurs tirages (réalisations) dans ces deux distributions, on obtiendra 
en moyenne des estimations (réalisations) égales à 2. Pour autant, on préférera sans 
conteste l’estimateur C à l’estimateur B. Sa distribution est beaucoup plus concentrée 
autour de la vraie valeur de 6 que celle de l’estimateur B. 

Quelle est l’implication de ce résultat ? Si l’on effectue des tirages dans la distribution 
de l’estimateur C, on obtiendra par exemple des valeurs du type 2,2, 1,9, 2,10, 1,8, 
etc., valeurs assez proches de la vraie valeur de 9 relativement à celles que l’on pour¬ 
rait obtenir avec l’estimateur B (par exemple 1,2, 3,2, 2,8, 0,8, etc.). L’estimateur C 
est donc plus précis que l’estimateur B, parce que sa variance est plus faible. Sur la 
base de cette comparaison théorique des distributions d’échantillonnage, on préfé¬ 
rera donc l’estimateur C aux estimateurs A et B. Ainsi, c’est cet estimateur que l’on 
appliquera sur un échantillon pour obtenir, au final, l’estimation du paramètre 0. 

L’étude des propriétés d’un estimateur est basée sur l’étude des caractéristiques de 
sa distribution. Toutefois, nous devons distinguer deux cas suivant la taille d’échan¬ 
tillon n : 

- l’étude de la distribution et des propriétés à distance finie pour n fixe ; 

- l’étude de la distribution et des propriétés asymptotiques pour n —» oo. 



Propriétés à distance finie 


Les propriétés à distance finie d’un estimateur correspondent aux propriétés de sa 
distribution à distance finie obtenue pour un échantillon de taille n finie. 
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3.1 


Distribution à distance finie 


La distribution à distance finie (ou distribution exacte) d’un estimateur 6 cor¬ 
respond à la distribution valable pour toute valeur de la taille de l’échantillon 

n e N : 

6 ~ loi exacte ( n ) V« € N 


La distribution exacte est nécessairement paramétrée par la taille d’échantillon n. 
Considérons un exemple de distribution à distance finie. 


Exemple 

On dispose d’un «-échantillon (X|.X„) où les variables aléatoires X, sont N.i.d.(/;,<x 2 j. Cet 

acronyme signifie que ces variables sont normalement et indépendamment distribuées. La 
distribution à distance finie de l’estimateur/7 = X„ (moyenne empirique) de l’espérance /i est 
la suivante : 

En effet, nous savons que la somme de variables aléatoires normales indépendantes suit une 
loi normale. Par ailleurs, nous savons que : 


V« € : 


(9.17) 



E 


yn j-f ) n n 

'\ 


V (p) 


-Y 

n Z_j 


X , 


n i -1 


= ^ Z v «> +2 IZ c <»(*'ri 

V /=! /=: j= i 

1 Y-t nxcr 2 a 1 

= iLV(Xi) = —— = — 

n 1 n- n 


(9.18) 


(9.19) 


puisque (1) les variables X, sont identiquement distribuées avec E(X,) = /j et V (X,) = a 2 
pour i = !,...,«, (2) les variables X, sont indépendantes, impliquant Cov(Xj,Xj) - 0 pour 
i j. La distribution de/7 pour toute taille d’échantillon « e N est totalement caractérisée par 
ti et cr 2 , paramètres qui peuvent être estimés. Par exemple, si n - 3, alors Jî ~ N (^,tr 2 /3), si 

n = 10, alors/7 ~ Af^.o^/io), etc. 


11 est souvent très compliqué de déterminer la distribution exacte d’un estimateur. Par¬ 
fois, on peut seulement déterminer la distribution exacte d’une variable transformée 
de l’estimateur 0. Considérons l’exemple suivant. 


Exemple 

On dispose d’un «-échantillon de variables aléatoires normales (X| 
X, sont N.i.d.(//,cr 2 j. La variance empirique 


S 


2 

n 


îZfi 

i=l 



.X„) où les variables 


(9.20) 
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est un estimateur de la variance a 2 , avec X„ - n~' y X,. On admet que, sous ces hypothèses, 

1=1 

la variable aléatoire transformée (n - I ) S 2 Jcr 2 a une distribution exacte du khi-deux à n - 1 
degrés de liberté : 

—S 2 ~X Z ( n ~ 1) V«eN (9.21) 

Dans ce cas on ne connaît pas la distribution exacte de l’estimateur S 2 , mais l’on connaît 
celle de la variable transformée (n - 1)5 jj/cr 2 . 


Mais sauf dans des cas particuliers (échantillon normal), il est généralement impos¬ 
sible de déterminer la distribution exacte de l’estimateur G ou d'une transformée de 
cet estimateur. Deux raisons expliquent cela : 

Première raison. Dans certains cas, on connaît la distribution des variables 
X\,...,X„ de l’échantillon, par exemple X,- ~ A/(/v,(X 2 ) ou X, ~ ;y 2 (u), etc. Mais la 
fonction g (.) qui définit l’estimateur est trop compliquée pour permettre la dérivation 
de la distribution exacte de G. 

?= 0 (X l( ...,X„)~? Vue N (9.22) 

Ainsi dans l’exemple précédent, la distribution de la variance empirique corrigée S 2 
est inconnue, y compris dans le cas d’un échantillon normal. 

Deuxième raison. Dans la plupart des cas, on ne connaît pas la distribution des 
variables X\ ,...,X„ de l’échantillon. Si ces variables sont indépendantes et identique¬ 
ment distribuées (i.i.d), tout ce que l’on sait c’est qu’elles ont la même distribution, 
mais cette dernière est a priori inconnue. Dès lors, l’estimateur 9, défini comme une 
fonction de ces variables aléatoires de distribution inconnue, a lui-même une distribu¬ 
tion (à distance finie) inconnue. 

0 = 0 (X. ,X„)~? VneN (9.23) 

À ce stade de l’exposé, la question qui se pose est de savoir comment évaluer la per¬ 
formance d’un estimateur. Pour cela, nous allons nous intéresser aux moments de 
la distribution de 9. Ces moments permettent de caractériser certaines propriétés à 
distance finie de l’estimateur : son biais (espérance), sa précision (variance), etc. 

Il est souvent possible de déterminer ces moments même si la distribution exacte de 
l’estimateur est inconnue. En imposant certaines hypothèses, on peut par exemple 
calculer E(0), V(0), etc., sans connaître la forme de la densité de l’estimateur G. 


Le biais d'un estimateur 


Le premier moment de la distribution de G, i.e. l’espérance, détermine son biais . 

Un estimateur 6 d’un paramètre G est non biasé si l’espérance de sa distribution 
est égale à G : 


E(0) = G 


(9.24) 


7 On peut définir le biais d'un estimateur par la quantité Biais(éi) = E(0 - 0). 
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Considérons l’illustration de la figure 9.4 où sont représentées les fonctions de densité 
de deux estimateurs A et B. On observe que l’estimateur A est biaisé car l’espérance 
de sa distribution d’échantillonnage, E(0 a) = 4, est différente de la vraie valeur (6 = 2) 
du paramètre. Si l’on effectue plusieurs tirages dans cette distribution, la moyenne des 
réalisations de 6a (estimations du paramètre 6) sera differente de la vraie valeur de 8. 
En revanche l’estimateur B est non biaisé : l’espérance de sa distribution coïncide avec 
la vraie valeur de 6. Ainsi, les réalisations de Ou (estimations du paramètre 6) seront 
en moyenne centrées sur 2. 



Figure 9.4 Estimateurs biaisé et non biaisé 


Exemple 

Soit (Kl,...,y,,) un «-échantillon de variables aléatoires discrètes i.i.d. telles que K, admette 
une distribution de Bernoulli avec une probabilité de succès p e [0,1], La moyenne empirique 
est un estimateur sans biais de p : n 

r =-ÿ>, (9.25) 


P ■ 


»=i 


En effet, puisque les variables Y { sont i.i.d. avec E(F/) = p, on a : 

i n 

1 ___ pXn 


E(p ) =^^= — =P 

n n 


(9.26) 
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Exemple 


Soit (K|,...,K„) un «-échantillon de variables aléatoires continues i.i.d. admettant une distri¬ 
bution uniforme 'ï/| 0 , e\. Un estimateur sans biais de 0 est : 


- 2 vri 

= - y y, 

n 

t=i 


En effet, puisque les variables K, sont i.i.d. avec K (K,) = (0 + 0)/2 = 0/2, on a : 


E 




n x 6 


G 


(9.27) 


(9.28) 


Dans les deux exemples précédents, nous avons pu montrer que l’estimateur était sans 
biais, sans connaître pour autant sa distribution exacte. Dans l’exemple suivant, nous 
allons au contraire utiliser cette distribution, ou plus précisément la distribution d’une 
variable transformée de l’estimateur. 
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Exemple 

Soit (Y\ un «-échantillon de variables N.i.d. Montrons que la variance empirique non 

corrigée : 


(9.29) 


i=i 


est un estimateur biaisé de la variance a 2 . Pour cela, introduisons tout d’abord la variance 
empirique corrigée S 2 : 


i=\ 


Nous connaissons la distribution exacte d’une forme transformée de S~ puisque : 

r 


In - 1 

l o - 2 


Si~x'(n-l) Vue: 


Exprimons maintenant la variance empirique corrigée S 2 n en fonction de S 2 : 

Par conséquent il vient : 


On en déduit que : 


-S 2 n ~ X 2 (n- 1) 


tr 


On sait que si X ~ x 2 («) alors E (X) = v. Dès lors 
ou de façon équivalente : 




E 




cr 2 * a - 1 


(9.30) 


(9.31) 

(9.32) 

(9.33) 

(9.34) 

(9.35) 

(9.36) 


Ainsi, la variance empirique non corrigée S 2 est un estimateur biaisé de cr 2 . On remarque 
que lorsque n —> oo, E(S 2 ) = cr 2 . On dit que cet estimateur est asymptotiquement non biaisé. 


FOC U S 


La variance empirique corrigée 

On distingue les variances empiriques corri- respectivement définies par : 
gée et non corrigée. Cette correction est parfois 

appelée correction de petit échantillon. Soit un <,2 _ 1 Y - ' ty ÿ \ 2 ^2 _ £ V' (y _ÿ \ 2 

«-échantillon (X\,...,X n ) de variables aléatoires ” ^t-1 ; " " n “^ 1 

i.i.d. telles que E(X,-) = p et V(X,) = cr 2 , les correction 

variances empiriques corrigée et non corrigée sont (9.37) 
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La variance empirique non corrigée S 2 est un esti¬ 
mateur biaisé de cr 2 , tandis que la variance empi¬ 
rique corrigée S 2 est un estimateur sans biais : 

E(S 2 ) ± cr 2 , E(s 2 ) = cr 2 (9.38) 

L’intuition de cette correction est la suivante. Sup¬ 
posons que les variables X; soient normalement 
distribuées avec p = 0, i.e. X, ~ N (0,<r 2 ). Dans 
ce cas, la variable XJcr suit une loi normale cen¬ 
trée réduite et la variable Xj/cr 2 suit une loi du 
khi-deux à un degré de liberté. Par conséquent, 
la somme de ces variables indépendantes pour 
i = 1 suit une loi du khi-deux à n degrés de 
liberté. 

Aÿx-~X 2 («) (9.39) 

cr- ^ 


Étant données les propriétés de la loi du khi-deux, 
on en déduit que : 

e(-^5 2 | = n <=> E(s 2 ) = cr 2 (9.41) 

Sous l’hypothèse p = 0, la variable S 2 est un es¬ 
timateur sans biais de cr 2 . Mais cette variable ne 
correspond pas à la définition de la variance em¬ 
pirique S 2 (équation 9.37). En effet, la variance 

« _ , 

empirique dépend de la somme ^ (X, - X„) et 

/= i 
n 

non de ^ Xf. Le problème c’est que les variables 

(=i 

(x, - X„j pour i = 1.n ne sont pas indépen¬ 

dantes en raison de la présence du terme X„. On 
peut montrer que seules n - 1 variables sont indé¬ 
pendantes, d’où : 


Considérons la « pseudo »-variance S 2 : 

n 

S 2 = n -1 ^ X 2 . Par définition : 

(=i 



4 Ÿj ( X ‘ - = ~ s2 n~ X 2 (n ~ 1) (9.42) 

cr- v ' n 

;=i 

C’est pourquoi S 2 est un estimateur biaisé (en pe¬ 
tit échantillon) de cr 2 : 

(9.40) e( 5 2 ) = l^-î-jcr 2 ^cr 2 (9.43) 
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L’absence de biais n’est toutefois pas un critère suffisant pour discriminer des es¬ 
timateurs alternatifs. Pour un même problème, on peut facilement trouver plusieurs 
estimateurs sans biais. 


Exemple 

Soit un «-échantillon (Y\ ,...,F„) de variables aléatoires i.i.d. telles que E(D = p- On consi¬ 
dère deux estimateurs JL t et J 12 de l’espérance p. Le premier estimateur correspond à la 
moyenne empirique et le deuxième estimateur n’est rien d’autre que la première variable 
de l’échantillon : 

p\ = - ÿ y< pi = x 

n i=\ 

Ces deux estimateurs sont des estimateurs sans biais de p. En effet : 

/=! ) i*=l 


(9.44) 


EÇf,) = b|- £ y ) = - ^E(L) = ^ 
I n I n n 

v /=1 / 1=1 


E(p 1 ) = E(Y i )=p 

puisque les variables Y, sont i.i.d. avec E(F,) = p. 


(9.45) 

(9.46) 
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3.3 


Précision et efficacité d'un estimateur 


Comment comparer deux estimateurs non biaisés ? Cette comparaison se fait sur la 
base de leur variance. 


Etafirisîë 


Comparaison d'estimateurs sans biais 

Soient deux estimateurs sans biais 8 \ et 61 . L’estimateur 9\ domine l’estimateur 81 , 
i.e. 8 \ > 82 , si : 


v(ëi) < v(? 2 ) 


(9.47) 


Comme l’illustre la figure 9.5, l’idée est que plus la variance d’un estimateur sans 
biais est faible, plus sa densité est concentrée autour de la vraie valeur du paramètre, 
plus les estimations ont de fortes chances d’être proches de cette valeur. 



▲ Figure 9.5 Comparaison d'estimateurs sans biais 


Exemple 

Soit un «-échantillon ( Fj,..., F„) i.i.d. tel que E(F,) = p et V(F,) = <x 2 . Comparons les deux 

n 

estimateurs/7| - F, et /L - F| de l’espérance p. Tout d’abord, nous savons que ces 

/=! 

deux estimateurs sont « sans biais ». Par ailleurs : 



¥0? 2 )=V(F,) = £ r 2 


(9.48) 

(9.49) 


On obtient V (jj i ) < V (/L) dès lors que la taille d’échantillon n est supérieure ou égale à un. 
L’estimateur/7| est préféré à/L- 


Remarque : Seuls des estimateurs non biaisés peuvent être comparés sur la base de 
leur variance. 
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Ainsi, nous savons comparer deux estimateurs non baisés. Mais existe-t-il un estima¬ 
teur sans biais qui soit plus efficace que tous les autres ? C’est la notion d’estimateur 

optimal. 
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Définition 9.11 

Un estimateur optimal au sens du critère de la variance (ou de l’erreur quadra¬ 
tique) est l’estimateur sans biais qui possède la variance la plus faible parmi tous 
les estimateurs sans biais. 


Il est souvent difficile, voire impossible, de montrer qu’un estimateur est optimal. 
Une alternative consiste à montrer que la variance d’un estimateur atteint une certaine 
borne en deçà de laquelle les variances des estimateurs sans biais ne peuvent pas 
descendre, comme l’illustre la figure 9.6. C’est le concept de borne de Cramer-Rao 
ou de borne FDCR (Frechet - Darnois - Cramer - Rao). 
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▲ Figure 9.6 Illustration du concept de borne FDCR 

Il est important de noter que la borne FDCR ne peut être établie que sous un certain 
nombre d’hypothèses (► chapitre 10), c’est pourquoi le concept d’efficacité au sens 
FDCR est plus restrictif que le concept d’optimalité, même si l’idée est similaire. 

Propriété 

Borne FDCR 

Soit (Xi,...,X„) un échantillon i.i.d. où X, admet une fonction de densité (ou de 
masse) fx (8\x) dépendant d’un paramètre 8 . Soit 8 un estimateur sans biais de 8 , 
i.e., E (8) = 8. Si la fonction fx (8; x) est régulière alors : 

v(fl) > I ” 1 (flb) = borne FDCR ou borne de Cramer-Rao (9.50) 

où I„ (Oq) correspond à la quantité d’information de Fisher associée à l’échantillon 
et évaluée en 8q, vraie valeur du paramètre 8. 

Dans le chapitre 10, consacré au maximum de vraisemblance, nous reviendrons sur 
cette définition après avoir introduit le concept de quantité d’information de Fisher 
et la notion de fonction de densité régulière. Mais ce qu’il faut retenir dès à présent, 
c’est que si la variance d’un estimateur atteint cette borne, on dit que cet estimateur 
est efficace (au sens de la borne FDCR), puisqu’il domine tous les autres estimateurs 
sans biais, en termes de variance. 


271 









Copyright © 2015 Dunod. 


Partie 3 Statistique mathématique 


Définition 9.12 

Un estimateur est efficace au sens de la borne FDCR (Frechet - Damois - Cramer 
- Rao) ou de la borne Cramer-Rao, si : 

v(3) = r n l (e 0 ) (9.5D 

où I„ ( 6 * 0 ) correspond à la quantité d’information de Fisher associée à l’échantillon 
et évaluée pour la vraie valeur 8q du paramètre 8. 


On dit aussi qu’un estimateur efficace est BUE {Best Unbiased Estimator). Cela traduit 
le fait que c’est le meilleur des estimateurs sans biais en termes de variance. Lorsqu’il 
est impossible de déterminer la borne FDCR (► chapitre 10), on a parfois recours au 
concept d’estimateur BLUE (Best Linear Unbiased Estimator). On caractérise alors le 
meilleur des estimateurs sans biais parmi la classe des estimateurs linéaires, un estima¬ 
teur linéaire étant défini comme une somme pondérée des variables de l’échantillon. 


IflEl Extension au cas multivarié 

Jusqu’ici, nous avons considéré le cas où le paramètre à estimer, 6, était un scalaire. 
Nous allons à présent étendre les définitions précédentes au cas où 8 est un vecteur de 
k paramètres : 

8 = (0,.8 k ) T (9.52) 

Le symbole T correspond à la transposée. Considérons quelques exemples. 

Exemple 

Soit (X],...,X„) un échantillon de variables N.i.d. avec E(X/) = y et V (X,) = cr 2 . Les deux 
paramètres y et <r 2 sont inconnus et l’on cherche à les estimer. On pose 0 — (/7,<r 2 ) et k - 2. 
On considère un modèle de régression (► chapitre 2) : 

y = Xp + y (9.53) 

où y = ( ij\ . y n ) T e R" est un vecteur de variables aléatoires endogènes, X est une matrice 

de dimension n x k de régresseurs non stochastiques, et y = (/i] ,...,y„) e R" est un vecteur 
de termes d’erreur aléatoires tel que E (y) = 0„ x i et V (y ) - cr 2 I„ où /„ est la matrice identité 
de dimension n X n. Le vecteur de paramètres P - (/fi. p k ) est inconnu. On pose donc 

e = P- 


On considère un estimateur 8, défini par un vecteur de dimension k X 1, tel que : 


0 

(kx 1) 




Son espérance E (f^j est un vecteur de k X 


valeurs : 



(*xl) 


'Efë,)' 


(9.54) 


(9.55) 
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Ainsi, cet estimateur est non biaisé si et seulement si : 



(ixl) 


9 <=> 



'<h' 

(*xl) 



, Ok , 


(9.56) 


La matrice de variance-covariance de l'estimateur 0 est de dimension k x k : 



{kxk) 


' v(0,) 

C ov (?) ,# 2 ) ■ 

. cov(ê u o k y 

C OV (?2i^l ) 

v(? 2 ) . 

. Cov (?2i6(t) 

Cov(9 k ,9^ 

Cov^9k^i) • 

• V@) , 


(9.57) 
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Remarque : La matrice de variance-covariance de l’estimateur 9, comme toute ma¬ 
trice de variance-covariance est symétrique, inversible et définie-positive (c’est-à-dire 
que ses valeurs propres sont toutes positives). 

Dans le cas multivarié, la notion de distribution d’échantillonnage d’un estimateur doit 
être précisée. La distribution exacte de l’estimateur 6 , si elle existe, est une distribu¬ 
tion multivariée ou distribution jointe (►chapitre 6). Par exemple, on peut avoir 
9 ~ N (#,« _l ir) où E est une matrice de variance-covariance de dimension k x k. On 

peut alors déterminer les lois marginales des estimateurs individuels 9\ ,..,9 k ainsi que 
les distributions conditionnelles. Par exemple, on peut établir la distribution condi¬ 
tionnelle de 9] sachant que l’estimateur 9 2 est égal à une valeur c. 

Revenons sur la comparaison d’estimateurs non biaisés. Soient deux estimateurs 9\ 
et 9i. L’estimateur 9\ est préféré à l’estimateur 9i si et seulement si : 

V (?î) - V (?| ) est une matrice semi-définie positive (9.58) 

'-V-' 

(kxk) 

Cette expression se réduit à ¥(# 2 ) — Y(9\ ) > 0 dans le cas univarié. De la même façon, 
un estimateur est efficace au sens de la borne FDCR si et seulement si : 

V (?) = 1“’ (0 O ) (9.59) 

( kxk ) (kxk) 

où I„ (# 0 ) désigne la matrice d’information de Fisher associée à l’échantillon et évaluée 
au point # 0 , vraie valeur du paramètre 9. 

□ Propriétés asymptotiques 

La question qui se pose ici est de savoir comment se comporte l’estimateur 9 lorsque la 
taille d’échantillon n tend vers l’infini. Pourquoi étudier le comportement asympto¬ 
tique de 61? Dans la plupart des problèmes, il est impossible de dériver la distribution 
exacte de 9 , c’est-à-dire sa distribution valable pour toute valeur de n. C’est en parti¬ 
culier vrai lorsque l’on ne connaît pas la distribution des variables de l’échantillon 
(par exemple, lorsque ces variables sont supposées i.i.d. de distribution commune 
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inconnue) ou que la forme fonctionnelle de l’estimateur, c’est-à-dire la fonction 
g (X\ ,...,X n ), est trop compliquée. Dans ce contexte, on cherche à caractériser le 
comportement de la variable aléatoire 9 dans le cas hypothétique d’un échantillon de 
taille infinie à l’aide des différentes notions de convergence (en probabilité, presque 
sûre, en moyenne quadratique ou en loi, ► chapitre 8). On étudie généralement deux 
dimensions : 

- la convergence de l’estimateur 9 ; 

- la distribution asymptotique de 9, généralement établie à partir du théorème cen¬ 
tral limite (► chapitre 8). 


4.1 


Estimateur convergent 


Soit un estimateur 6 n = g (X\,...,X n ) d’un paramètre (ou d’un vecteur de paramètres) 9 
associé à un «-échantillon (X\ ,...,X n ). Afin de bien mettre en évidence la dépendance 
de l’estimateur à la taille de l’échantillon, nous l’indicerons par « et nous noterons 9q 
la vraie valeur du paramètre 9. 

Définition 9.13 

Un estimateur 9 n est convergent au sens fort s’il converge presque sûrement vers 
la vraie valeur du paramètre : 

9 n 4 9 {) (9.60) 


Définition 9.14 

Un estimateur 9 n est convergent au sens faible s’il converge en probabilité vers 
la vraie valeur du paramètre : 

9 n 4 9 () (9.61) 


Remarque : Lorsqu’un estimateur est qualifié de convergent sans plus de précision 
(consistent en anglais), cela signifie qu’il est convergent au sens faible. 

La convergence est une des propriétés les plus importantes pour un estimateur. Elle 
signifie que si l’on applique l’estimateur à un très grand échantillon, les estimations 
(i.e. les réalisations de 9„) seront extrêmement concentrées autour de la vraie valeur 
du paramètre. Comme l’illustre la partie gauche de la figure 9.7, dans le cas d’une 
convergence faible, lorsque « tend vers l’infini il y a une très forte probabilité d’obtenir 
des estimations 9 n ( x ) très proches de la vraie valeur de 9. Si cette valeur est égale à 2, 
on obtiendra par exemple des estimations du type 2,0001, 1,9999, 2,0000, etc. Dans 
le cas de la convergence forte (graphique de droite de la figure 9.7), les choses sont 
encore plus simples. Lorsque « tend vers l’infini, la distribution de l’estimateur 9 n est 
dégénérée en une masse ponctuelle : l’estimateur n’est plus une variable aléatoire et 
devient une constante égale à la vraie valeur du paramètre, 9 - 2. On comprend dès 
lors l’intérêt de démontrer la convergence d’un estimateur, au minimum au sens faible. 
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Convergence faible Convergence forte 



▲ Figure 9.7 Estimateur convergent (sens fort et sens faible) 

Emeriêti 

Convergence au sens faible 

Soit un estimateur 0„ d’un paramètre (ou d’un vecteur de paramètres) 0 tel que : 

limEfô,) = 0 O limV (d n ) = 0 (9.62) 

il —>oo ' ' n —>oo ' f 

où 0o est la vraie valeur du paramètre, alors cet estimateur est convergent au sens 
faible (► chapitre 8) : 

0„ 4 0o (9.63) 
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Exemple 

Soit (Y\,...,Y„) un «-échantillon de variables aléatoires i.i.d. telles que E( Y : ) = /j et 
Y (Yj) = cr 2 , où le paramètre /u est inconnu. L’estimateur/7„, défini par : 


0 


i " 

n 

t=i 


(9.64) 


est un estimateur convergent de /j. En effet, puisque les variables Y\ ,Y 2 ,...,Y n sont i.i.d., nous 
avons : 

1 ” 

E(0„)= - Vfi (7,) = // (9.65) 

n 


limV (jj n ) = lim — V V (K,) = lim — = 0 

n— *oo «—>oo fj~ t i n— »oo fi 

i=\ 


(9.66) 


L’estimateur jj„ est donc convergent au sens faible : 


„ p 
0 « -»0 


Une autre façon de démontrer la convergence en probabilité consiste à utiliser la loi 
faible des grands nombres (théorème de Khintchine). Dans le cadre d’un échan¬ 
tillon i.i.d., nous savons que la moyenne empirique X n des variables de l’échantillon 
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converge vers l’espérance. Il suffit alors d’exprimer 0 n comme une fonction de cette 
moyenne empirique, i.e. sous la forme Q n = h(X n ). En utilisant le théorème de Slutsky 
(► chapitre 8), on en déduit la convergence en probabilité de d n et son éventuel carac¬ 
tère convergent ou non. 


HWM Distribution asymptotique 

Dans la plupart des problèmes d’estimation mis en œuvre dans la pratique, on cherche 
à déterminer la distribution asymptotique de l’estimateur. La loi asymptotique per¬ 
met notamment d’estimer l’écart-type (ou standard error en anglais) associé à un es¬ 
timateur dont on ne connaît pas nécessairement la distribution exacte (► En pratique : 
Estimation et logiciel d’économétrie). 

Définition 9.15 

Au sens strict, la distribution asympotique d'un estimateur 0„ correspond à sa 
distribution valable uniquement pour une taille d’échantillon n très importante 
mais finie. 


Pourquoi s’intéresser à la distribution de l’estimateur dans le cas particulier où la 
taille de l’échantillon n est très importante mais finie? D’un coté, nous savons qu’il 
est généralement impossible (sauf sous des hypothèses fortes portant sur la normalité 
de l’échantillon) de connaître la distribution exacte (à distance finie) de l’estimateur, 
valable quelle que soit la dimension finie n de l’échantillon : 

6 „ ~ loi exacte ?? Vu € N (9.67) 


D’un autre coté, lorsque la taille de l’échantillon n tend vers l’infini, si l’estimateur 
9 n est convergent (au sens strict ou au sens faible), alors sa distribution tend vers une 
distribution dégénérée. Par exemple, dans le cas d’un estimateur convergent au sens 

—‘ a.S. 

fort, 6 n —> f)[), la densité fg (x) de Q n tend vers une masse ponctuelle : 


lim (x) = /(x) = 


1 

0 


si x = 

0 sinon 


(9.68) 


où 0() désigne la vraie valeur du paramètre. Dit autrement, lorsque n tend vers l'infini, 
l’estimateur 0 n converge vers une constante. 

C’est pour ces raisons que l’on s’intéresse aux propriétés de l’estimateur 6 n dans une 
configuration très particulière, où la taille de l’échantillon n est suffisamment grande 
pour que l’on puisse utiliser des résultats de convergence (► chapitre 8), mais est sup¬ 
posée finie. Dans ce contexte précis, nous allons caractériser la distribution asymp- 

a s y 

totique de 1 estimateur représentée par le symbole % (avec asy pour asymptotique). 


-—- asy 

6 n « loi asymptotique (9.69) 

Le tableau 9.1 synthétise les différentes notions de distribution en fonction de la taille 
d'échantillon n, pour un estimateur 9 n convergent au sens fort , dont on ne connaît pas 
la loi exacte. 

8 Dans le cas d'un estimateur convergent au sens faible, la dernière colonne devient : 9„ —> 6, convergence 
faible et 0„ est « presque » une constante. 
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T Tableau 9.1 Résumé des propriétés d'un estimateur en fonction de n 



Taille n 

Résultat 

Interprétation 


loi exacte inconnue 
9 n est une v.a.r. 


n petit 

?n~? 


n grand 

9 n ~ loi asymptotique 
loi asymptotique 
9 n est une v.a.r. normale 


— a.s. 

9 n -» 9o 

convergence forte 
est une constante 


CO 


Note : te terme v.a.r. signifie variable aléatoire réelle, n désigne la taille de l'échantillon. 

Comment déterminer la distribution asymptotique d’un estimateur? La distribution 
asymptotique est généralement basée sur un résultat de convergence en distribution. 
Cela peut paraître paradoxal puisque la distribution asymptotique est valable pour une 
dimension n fixe alors que la convergence en distribution implique que n tende vers 
l’infini (► chapitre 8). Toutefois ce résultat de convergenceen distribution ne porte pas 
directement sur l’estimateur 0 n , mais sur une variable transformée qui dépend de la 
dimension n (qui définit la vitesse de convergence). L’idée est de déterminer une 
variable transformée de 8 n qui converge en loi vers une distribution non dégénérée, 
c’est-à-dire une distribution dont la variance ne tende ni vers 0, ni vers l’infini. 

Exemple 

Soit un «-échantillon de variables (X|,...,X„) i.i.d. telles que E(X,) = g et V(X,) = cr 2 , où 
l’espérance p est un paramètre inconnu. On considère un estimateur /?„ du paramètre p défini 
par la moyenne empirique : 



(9.70) 


Dans ce cas, la loi exacte de/7„ n’est pas connue puisque la loi des variables de l’échantillon 
X, ,...,X„ est elle-même inconnue. D’après la loi faible des grands nombres (théorème de 
Khintchine), nous savons que l’estimateur est convergent au sens faible : 


_ a.s. 


(9.71) 


La distribution de 'g,, est donc dégénérée lorsque n tend vers l’infini. Mais, d’après le théo¬ 
rème central limite de Lindeberg-Levy, nous savons que la variable transformée sfn (p„ - g) 
converge en distribution vers une loi non dégénérée, puisque : 



(9.72) 

variable transformée , oi non dégénérée 



variable transformée 


À partir de ce résultat de convergence sur une variable transformée de 9 n dépendant 
de n, on déduit la distribution asymptotique de 9 n pour une valeur n fixe. Supposons 
que l’on obtienne un résultat de convergence en distribution pour n —> oo, du type : 



On admet alors que pour une taille d’échantillon n très grande, mais finie (n = 10 000 
par exemple), on peut utiliser l’approximation suivante : 



où le symbole ~ signifie « approximativement distribué selon ». Puisque la dimen¬ 
sion n est finie, on peut alors en déduire la distribution asymptotique de 9 n en ré- 
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arrangeant les termes de l’expression (9.74). Rappelons que si aX ~ N (b,c) alors 
X ~ N (b/a , c/a 2 y On en déduit que : 

(9.75) 


De même si X - a ~ N ( b,c ) alors X ~ N (b - a , c). Par conséquent la distribution 
asymptotique de l’estimateur 8 n est définie par : 


—- asu 

Bn » N 



(9.76) 


Exemple 

Soit un «-échantillon de variables (Xi,...,X„) i.i.d. telles que E(X,) = p et V (X,) = a 1 , où 
l'espérance p est un paramètre inconnu. On considère un estimateurp„ du paramètre p défini 

n 

par la moyenne empirique, /?„ = n~ ] ^ X,-. D’après le théorème central limite de Lindeberg- 

i=i 

Levy, nous savons que : 

Vn (Jj n ~ p) N (0,tr 2 ) (9.77) 

On en déduit la distribution asymptotique de l’estimateur Ji„ pour une dimension n suffisa- 
ment grande et finie : 

(9.78) 


Dans de nombreux cas, les estimateurs que nous étudierons, convergent en distribution 
vers une loi normale (comme dans le cas de l’exemple précédent). 

Définition 9.16 

Un estimateur 6 „ est asymptotiquement normalement distribué dès lors que : 

VS(ê„-flb)4 N(0,Z) (9.79) 

Sa distribution asymptotique est définie par : 

Ô n a * N(e 0 ,^ (9.80) 


Pour être précis, il convient de ne pas confondre le résultat de convergence en dis¬ 
tribution (9.79) qui porte sur une transformée de 6 n , et la distribution asymptotique 
de 6 „ (9.80), qui est la conséquence du résultat de convergence. Toutefois, parfois on 
utilise le terme de distribution asymptotique pour qualifier le résultat de convergence 
de l’équation (9.79). En relation avec le résultat précédent, nous pouvons à présent 
définir les concepts d’espérance et de variance asymptotiques : 

B.é.ÜDjti<20LSJ..Z 

Soit un estimateur 8 n convergent et asymptotiquement normalement distribué vé- 

rifiant : — t E\ 

Vn(0„ -0 O ) -» N (0,1) ou e n % y N[ 6 0 ,-J (9.81) 
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L'espérance et la variance asyniptotiques de G„ sont respectivement définies 
P ar : „ 


Easu(O n =flb V fl ™ =- 


(9.82) 


On vérifie que, puisque l’estimateur est convergent, sa variance asymptotique tend 
vers 0 lorsque n tend vers l’infini : 

limVa^fêj,) = lim — = 0 (9.83) 

n —>oo v ' n—>oo n 

Reste à savoir comment obtenir un résultat de convergence en distribution pour un 
estimateur G n qui n’est pas simplement défini par la moyenne empirique. En général, 
la démarche est la suivante : 

■ Étape 1. On exprime l’estimateur 6 n comme une fonction h (.) de la moyenne em¬ 
pirique X„ des variables de l’échantillon X\,...,X n . 

G n = h (X„) (9.84) 

■ Étape 2. On applique une version du théorème central limite afin de déterminer la 
convergence en distribution de la moyenne empirique X lt . Dans le cas d’un échan¬ 
tillon i.i.d. avec E(X,) = p et V (X,-) = cr 2 , le théorème central limite de Lindeberg- 
Levy nous permet d’obtenir : 

4 JV(0,O) (9.85) 

■ Étape 3. On applique le théorème de Slutsky et/ou la méthode delta (► chapitre 8) 

pour déduire du résultat précédent la convergence en loi de l’estimateur G n = h : 

y[Ti(o n -0 0 )^ N(Q,Z) (9.86) 

La forme de Z est alors une fonction, plus ou moins compliquée, de O et éventuel¬ 
lement d’autres paramètres. 



Estimation 


X! 

O 

c 

ri 

û 


o -g 
(N 


© 


en 


>- 

CL 

O 

U 


Une fois que l’on dispose d’un « bon » estimateur 0 (sans biais, efficace et convergent), 
la dernière étape consiste à l’appliquer à partir des données de l’échantillon (x\,...,x„) 
afin d’obtenir une estimation du paramètre ou du vecteur de paramètres G. On dis¬ 
tingue deux principales méthodes d’estimation : 

- l’estimation ponctuelle ; 

- l’estimation par intervalle de confiance. 

9 II existe en fait une troisième méthode : l’estimation par densité. Plutôt que de donner une valeur (es¬ 
timation ponctuelle) ou un intervalle de confiance pour estimer la valeur du paramètre 0, on fournit tout 
simplement la fonction de densité de l’estimateur 0. Cette méthode est notamment utilisée pour la prévision 
( clensiiyforeca.il ), mais la logique est la même pour l’estimation d'un paramètre. L'utilisateur de l’estima¬ 
tion (ou de la prévision) peut se faire une idée précise de l'incertitude autour de l’estimation (prévision) 
ponctuelle. Celte méthode est par exemple utilisée par la Banque d'Angleterre pour ses prévisions d’infla¬ 
tion {fuit charts). Dans la pratique, la densité de l’estimateur est souvent estimée par des méthodes senti ou 
non-paramétriques. 
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5.1 


Estimation ponctuelle 


Dans la section 2.2, nous avons défini la notion d’estimation ponctuelle. Rappelons 
qu’il s’agit tout simplement de la réalisation 6(x) de l’estimateur 6 = g(X\,...,X n ), 
obtenue à partir de la réalisation (x\ ,...,x„) de l’échantillon. Concrètement, obtenir 
une estimation revient tout simplement à appliquer la « formule» 6 = g (X\,...,X n ) 
sur les données (xj ,...,x„). Cette opération se fait habituellement à l’aide d’un logiciel 
d’économétrie ou de statistique (Eviews, Rats, Stata, Matlab, Scilab, etc.) ou d’un 
tableur (Excel, par exemple ; ► En pratique : Estimation et logiciel d’économétrie). 


EN PRATIQUE 


Estimation et logiciel d'économétrie 


Sur la figure 9.8 est représenté un exemple de sor¬ 
tie du logiciel d’économétrie Eviews. 11 s’agit d'un 
modèle de régression linéaire (► chapitre 2), 
dans lequel on explique le montant de dépenses 
mensuelles effectuées à l’aide d’une carte de crédit 
en dollars (variable F,) par le revenu du possesseur 
de la carte (variable X,) selon l’équation : 

Yi = a+pXi + Si (9.87) 

où les paramètres a et fi sont inconnus et e, est un 
terme aléatoire d’erreur, de distribution inconnue, 
mais vérifiant E (s,-) = 0, Y (e f ) = cr 2 et E ( e ( | x,) = 
0. On dispose d’un échantillon (x;,j/;)" =] de n = 
100 individus pour lesquels on observe le revenu 
et le montant dépensé. Dans ce cas, la méthode 
d’estimation utilisée est celle des moindres carrés 


ordinaires (MCO ou least squares en anglais), pré¬ 
sentée dans le chapitre 2. Soient â et fi les estima¬ 
teurs des MCO des paramètres a et fi. Sur la par¬ 
tie gauche de la figure 9.8, sont reportées les pre¬ 
mières observations de l’échantillon. Sur la partie 
droite de la figure 9.8, on retrouve 

- la méthode d’estimation utilisée (MCO) ; 

- la taille de l’échantillon ( 100) ; 

- les estimations f?(x,i/) et fi (x,y ), i.e. les réalisa¬ 
tions des estimateurs des MCO r? et fi (-45,50 
et 0,069) ; 

- les écarts-types des estimateurs (? et /? estimés à 
partir de leur distribution asymptotique (62,95 
et 0,016). 
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^ mnood 

•701 7943 

F-statistic 


17 09190 

turbin- Watson stat 

1 752249 
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0 000075 


▲ Figure 9.8 Exemple de sortie de logiciel d'économétrie 
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5.2 


Estimation par intervalle de confiance 


Le principal inconvénient de l’estimation ponctuelle, c’est qu’elle ne rend pas compte 
de l’incertitude autour de l’estimation. Une façon de rendre compte de cette incertitude 
est de proposer un intervalle de confiance sur la valeur du paramètre 8. 


PjgJMtjsaiLIS 

Un intervalle de confiance sur le paramètre 8 pour un niveau de confiance de 
1 - a (ou un niveau de risque rr), avec a e ]0,1 [, est un encadrement du type : 

Pr(A <8<B)= 1 -a (9.88) 

où A et B sont des variables aléatoires, fonctions des variables de l’échantillon 

X,. X n . 
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Une réalisation de cet intervalle de confiance est notée : 

IC\- a = [a\b] (9.89) 

où a et b sont les réalisations respectives des variables A et B, obtenues à partir de la 
réalisation de l’échantillon (xi ,...,x„). 

Ainsi, on cherche à encadrer la valeur de 8 (inconnue) par deux variables aléatoires 
A et B, telles que la probabilité que la valeur de 8 soit comprise entre ces deux va¬ 
riables soit précisément égale à 1 - a. Ces variables sont des fonctions des variables 
de l’échantillon. Dès lors, à partir de la réalisation (xi,...,x„) de l’échantillon, on peut 
déduire des réalisations des variables A et B, et une réalisation de l’intervalle, c’est-à- 
dire deux valeurs encadrant la vraie valeur 8 pour un niveau de confiance de 1 - a. Par 
exemple, si pour un échantillon (xi ,...x„) et a = 5 %, on obtient ICo ,95 = [1,2; 1,5], 
cela signifie que pour cette réalisation de l’échantillon (c’est-à-dire pour ces données), 
il y a 95 % de chances que la valeur de 8 soit comprise entre 1,2 et 1,5. 

Remarque : 11 ne faut pas confondre l’intervalle de confiance, fondé sur des variables 
aléatoires et une probabilité (9.88), et sa réalisation, qui n’est qu’un segment défini 
par deux valeurs réelles (9.89). Ainsi, il convient d’éviter les notations du type : 

Pr (a < 8 < b) = 1 - a (9.90) 

Par exemple, la notation Pr ( 1,2 < 8 < 1,5) = 0,95 n’a pas de sens, car 8 n’est pas une 
variable aléatoire. Il n’y aucune raison d’utiliser la probabilité dans ce cas puisque 
le paramètre 8 est supposé constant : c’est ce qui distingue l’approche fréquentiste, 
utilisée ici, de l’approche Bayésienne de la statistique. 

Comment obtenir un intervalle de confiance? Il n’existe pas de méthode générale, 
mais la procédure suivante peut être utilisée dans de nombreux cas : 

■ Étape 1. On considère un estimateur 8, sans biais et convergent, du paramètre 8. 
On cherche à caractériser soit (1) sa loi exacte, si cela est possible (ou celle d’une 
variable transformée), (2) soit sa loi asymptotique. Cette loi dépend nécessairement 
de 8 puisque l’estimateur est sans biais, Le. E(0) = 6. 

■ Étape 2. On transforme la variable 8 de sorte à ce que la loi de la variable trans¬ 
formée ne dépende plus de 8, ni d’autres paramètres inconnus. Cette variable trans¬ 
formée dépend naturellement de 8 (paramètre à estimer) et de 8, mais elle ne doit 
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pas dépendre d’autres paramètres inconnus. Soit h{8,8) la variable transformée. On 
cherche à obtenir un résultat du type : 

h(8,8) ~ loi connue (ne dépendant pas de paramètres inconnus) 


En général, on utilise ici une z-transformée du type : 


8 - E(6>) _ 8-8 

y/vÜt) a /v^ 


(9.91) 


Dans certains cas, cette variable transformée dépend d’autres paramètres inconnus 
que 8. Il faut alors chercher à les remplacer par leurs estimateurs. 


Étape 3. À partir de la loi de la variable aléatoire transformée h(8,8), on construit 
un encadrement du type : 


Pr 


c < h{8,8) < cl 

constante variable aléatoire constante/ 


= 1 - a 


(9.92) 


Pour cela, on cherche deux constantes réelles c et d, telles que que d > c et que 
la distance d — c soit la plus petite possible. Pour un intervalle symétrique, on peut 
obtenir les valeurs c et d de la façon suivante, comme l’illustre la figure 9.9 : 

Pr (h(8,8) < c) = ^ Pr (h{8,8) > d) = ^ (9.93) 



▲ Figure 9.9 Intervalle de confiance 


Étape 4. En réaménageant les termes de cet encadrement, on cherche à construire 
un encadrement sur la valeur de 8, tel que : 

/ \ 


Pr 


f(0,c,d) 


< 


8 


< 


g ( 8,c,d ) 


'■variable aléatoire ' variable aléatoire^ 


= Prfi4 < 8< B) = 1 -a (9.94) 


où /(.) et g(.) sont des fonctions, A = f(8,c,d ) et B = g(8,c,d) sont des variables 
aléatoires qui dépendent de l’estimateur 8 et donc implicitement des variables de 

l’échantillon Xj . X„. Elles dépendent en outre des constantes c ou d, suivant les 

transformations effectuées. 
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■ Étape 5. À partir de la réalisation de l’échantillon (xi ,...,x n ) et de l’estimation 
ponctuelle 6 (x), on déduit la réalisation de l’intervalle de confiance : 

IC\-„ = [/(?(x));ÿ(tf(x))] = [a\ b] (9.95) 

Appliquons cette méthodologie dans le cadre de deux exemples. Le premier porte 
sur la construction d’un intervalle de confiance sur l’espérance d’une loi normale 
lorsque la variance est connue. Le second exemple porte sur la construction d’un 
intervalle de confiance sur l’espérance d’une loi normale lorsque la variance est 
inconnue. 


Exemple 

On souhaite estimer par intervalle de confiance l’espérance p d’une variable aléatoire X sui¬ 
vant une loi normale de variance connue cr 2 = 6,25 à l’aide d’un échantillon de n = 10 
variables (Xi,...,X„) i.i.d. de même loi que X. On sait que la réalisation de la moyenne em¬ 
pirique X„ pour cet échantillon est égale à 4,3. On considère un niveau de risque a = 5 %. 
Détaillons les étapes de la démarche. 

■ Étape 1. Nous savons que la moyenne empirique X n est un estimateur sans biais et 
convergent (théorème de Khintchine) de l’espérance (i : 

%, 4 n (9.96) 


De plus, dans un échantillon N.i.d., la moyenne empirique a une distribution exacte nor¬ 
male : 


1 ^ 

1=1 




(9.97) 


■ Étape 2. Construisons une variable transformée de X„ dont la loi ne dépend pas de para¬ 
mètres inconnus. Ici, il suffit d’utiliser la z-transformée : 


X„ - B(X„) 

>/v(x„) 


X rt P 

cr/n 


A/dVO 

loi ne dépendant pas de 6 


(9.98) 


Remarque : On aurait pu utiliser le résultat X„ - p ~ TV (0,<r 2 j, puisque la variance cr 2 est 
connue. 


Étape 3. On construit un encadrement du type : 

Pr(c< ^4 
l cr/n 

Les constantes c et d sont telles que : 


= 1 - n 


Pr 


cr/n 


< c 


= #(c) = £<= 


2 

V 2 / 


Pr 


X n -V 

ir/n 


>d\ = 1 - Pr 


X„-ij 

cr/n 


<d =- 


d = d> 


K) 


(9.99) 

(9.100) 

(9.101) 


où (.) désigne la fonction de répartition de la loi normale centrée réduite. 
Étape 4. De l’encadrement précédent, on déduit que : 


i 0 ~' ( 


1 - —]) 

l v 

2 / cr/n ' 

t 2/J 


■ a 


(9.102) 


Pr (t4' ©— £ £ f *" (■ - \ ) ■- ■*■) - 1 —« ,9 - l03 > 
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En multipliant par —1 les termes de ces inégalités, il faut penser à inverser les bornes de 
l’encadrement. Ainsi, on obtient un intervalle de confiance à 95 % du type : 


Pr 


variable A variable B 

fi-l (™n\ — 1 


1 -a 


(9.104) 


La loi normale étant symétrique, 0 (a/2) - -0 ( 1 — a/2 ), on peut réécrire cet inter¬ 
valle de confiance sous la forme : 

Pr(x n - (l - §) <ju < (l - §)) = I-« (9.105) 


■ Étape 5. Pour un niveau de risque a = 0,05, une taille d’échantillon n = 10, une variance 
cr 2 = 6,25 et une réalisation de la moyenne empirique x„ = 4,3, on obtient une réalisation 
de l’intervalle de confiance égale à : 



V6^25 , yKB , 

= 4,3 - x 0~' (0,975) ;4,3 - x 0 ~ 1 (0,025) 

- 4,3-p x ( 1,96) ; 4,3 - p x(-l,96) 

= [3,81; 4,79] (9.106) 


Exemple 

On considère le même exemple que précédemment (échantillon normal, n = 10, x„ = 4,3), en 
supposant cette fois-ci que la variance des variables A, n’est pas connue. On suppose en outre 

que la réalisation de la variance empirique corrigée S 2 = (n - I ) _l ^ (x, - X„) est égale à 

/'=! 

6,76 sur cet échantillon. Construisons un intervalle de confiance à à 95 % surE(X,) = /r. 

■ Étape 1. Nous savons que la moyenne empirique X„ est un estimateur sans biais et 
convergent (théorème de Khintchine) de l’espérance p. Sa distribution exacte est : 


X 


n — 



(9.107) 


Étape 2. Construisons une variable transformée de X„ dont la loi ne dépend pas de para¬ 
mètres inconnus. Dans ce cas, on ne peut plus utiliser la z-transfonnée, car cette dernière 
dépend d’un paramètre inconnu, a : 

- X " ~ AC(0,1 ) (9.108) 

(t /n 

paramètre inconnu 


Nous allons donc remplacer cr 2 par un estimateur convergent, à savoir la variance empi¬ 
rique corrigée S 2 r Nous savons que dans un échantillon normal : 



~X 2 (n~ O 


(9.109) 
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Par ailleurs, on peut démontrer que les deux variables définies par les équations (9.108) 
et (9.109) sont indépendantes. Rappelons que si X et Y sont deux variables indépendantes 
telles que X ~ N (0,1) et Y ~ y 1 ( y ), alors la variable Z = X/ yj( Y/u) suit une distribution 
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de Student à v degrés de liberté, notée I (v). Dans notre cas, nous pouvons définir une 
variable telle que : 


x,,-» 

crfn 



( x «-v ) <T 

( cr/n ) S n 


X„-y 

S Jn 


~ t(n- 1 ) 


(9.110) 


On observe que cette variable ne dépend pas de paramètres inconnus (honnis /./, le para¬ 
mètre que l’on souhaite estimer) et sa loi ne dépend pas, elle aussi, de paramètres inconnus. 

■ Étape 3. On construit un encadrement du type : 


Pr| c < <cl\=\-a 


Les constantes c et d sont telles que : 

Pr' 


X„-ii _ 
S„/n <L j 


( ——- > d) = 1 _ Pr 


l SJn ) 

iS fjn t 


= F «" (C) = 2 


a 

2 


(9.111) 


(9.112) 


'-*■(!) 

d = F "'i ( l “ f ) (9 ' ll3) 

où F„_i (.) désigne la fonction de répartition de la loi de Student à n - 1 degrés de liberté. 


■ Étape 4. De l’encadrement précédent, on déduit un encadrement sur /u : 


Pr 



variable A 


< n < x„ - 



variable B 



I -a 


(9.114) 


La loi de Student étant symétrique, F n [j (a/2) = -Fj, (1 - a/2 ), on peut réécrire cet 
intervalle de confiance sous la forme : 




1 -a 


(9.115) 


■ Étape 5. Pour un niveau de risque a = 0,05, une taille d’échantillon n = 10, une réalisation 
de la variance empirique corrigée s 2 n = 6,76 et une réalisation de la moyenne empirique 
x n = 4,3, on obtient une réalisation de l’intervalle de confiance égale à : 



4,3 


V6776 

10 


X F, (0,975); 4,3 


V6776 

10 


x Fô 1 (0,025) 


2,6 2,6 

= 4,3 —x (2,2622) ; 4,3 —^ x (-2,2622) 

= [3,6240; 4,9760] 


(9.116) 


où F 9 (.) désigne la fonction de répartition de la loi de Student à 9 degrés de liberté. 
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3 questions à 

Ekaterina 

Sborets 

Senior Risk Analyst, Lloyds Banking 
Group (Londres) 



Quel est votre parcours professionnel et votre mission 
actuelle à la Lloyds ? 

À l'issue de mon master d'Econométrie et de Statistique 
appliquée à l'Université d'Orléans, j'ai été embauchée par 
BNP Paribas Personal Finance au sein du Centre de Scoring. 
En 2014, j'ai rejoint la Lloyds Banking Group à Londres en 
tant que Senior Risk Analyst. Actuellement, mon rôle 
consiste à développer des modèles statistiques qui 
permettent d'analyser et de prévoir le comportement des 
clients de la Banque afin de définir des stratégies concernant 
la politique d'octroi des prêts ou des cartes de crédit, 
l'ouverture des comptes courants, les étapes de 
recouvrement des créances impayées, etc. 

Quelle est l'importance de la phase de constitution de 
l'échantillon dans votre activité ? 

La phase de constitution d'un échantillon est essentielle dans 
tout travail de modélisation. L'échantillonnage intervient à 
deux niveaux : lors de la phase d'estimation des paramètres 
du modèle de risque et lors de la phase de validation de ce 
modèle. On constitue généralement deux échantillons (une 
base d'apprentissage et une base de test) en vérifiant 
l'affectation d'une proportion spécifique de « bons » et de 
« mauvais » individus dans la base totale. 

Nous utilisons des méthodes d'échantillonnage aléatoires 
pour éviter le phénomène de sur-apprentissage sur des 
niches de population. Il faut être conscient que la question 
de la volumétrie des données est de plus en plus importante. 
C'est pourquoi, l'échantillonnage résulte aussi d'un arbitrage 
entre des impératifs statistiques (représentativité de 
l'échantillon, taille suffisante) et des contraintes 
opérationnelles (réduction des coûts et du temps de calcul). 

Quels sont les méthodes d'estimation que vous utilisez 
pour estimer les paramètres de ces modèles de risque ? 
Suivant le modèle retenu, les paramètres sont estimés par 
des méthodes paramétriques (maximum de vraisemblance, 
moindres carrés ordinaires) ou semi-paramétriques (méthode 
des moments généralisés). On utilise aussi parfois des 
approches non paramétriques (estimateurs kernel, régression 
locales polynomiales). ■ 
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Les points clés 

Un échantillon aléatoire est une collection de variables aléatoires. 


-4 Un estimateur est une variable aléatoire. 


Une estimation ponctuelle correspond à la réalisation de l’estimateur obtenue pour 
un échantillon (réalisation). 


La distribution à distance finie ou distribution exacte d’un estimateur est valable 
pour toute taille de l’échantillon. 


-> La distribution asymptotique d’un estimateur est valable pour un échantillon de 
très grande taille. 


Un estimateur est non biaisé si son espérance correspond à la valeur du paramètre 
à estimer. 


Un estimateur est convergent s’il converge en probabilité vers la vraie valeur du 
paramètre. 


Un estimateur est asymptotiquement normalement distribué si sa distribution 
asymptotique est normale. 


Un estimateur est efficace si sa variance atteint la borne de Cramer-Rao. 


Un intervalle de confiance est un encadrement de la vraie valeur du paramètre par 
deux variables aléatoires. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquez si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Propriétés d’un estimateur 

a. Un estimateur sans biais est efficace. 

b. Un estimateur sans biais est convergent. 

c. Un estimateur convergent au sens fort est nécessai¬ 
rement convergent au sens faible. 

d. Un estimateur convergent est sans biais. 

e. Un estimateur efficace est sans biais. 

Variance empirique 

On considère un n -échantillon de variables N.i.d. 

a. La variance empirique est un estimateur de la va¬ 
riance. 

b. La variance empirique corrigée est un estimateur 
sans biais de la variance. 

c. La variance empirique corrigée a une distribution 
exacte du khi-deux. 

d. Une transformée de la variance empirique corrigée 
admet une distribution du khi-deux à n degrés de li¬ 
bertés. 

e. La variance empirique corrigée est définie par S 2 = 

n 

i= 1 

Comparaison d’estimateurs 

Soient deux estimateurs sans biais 0\ et (fi. 

a. L’estimateur 0\ est préféré à fi si sa variance est plus 
faible. 

b. L’estimateur 6\ est efficace au sens FDCR si sa va¬ 
riance est plus faible que celle de (fi. 

c. Si l’estimateur 0\ est efficace au sens FDCR, alors sa 
variance est plus faible ou égale à celle de (fi. 
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d. Si l’estimateur 0\ est optimal alors il est efficace au 
sens de la borne FDCR. 

e. Un estimateur Q\ convergent est efficace. 

4 Intervalle de confiance 

a. Un intervalle de confiance est un encadrement sur la 
vraie valeur du paramètre par deux variables aléa¬ 
toires. 

b. Un intervalle de confiance est fondé sur un estima¬ 
teur sans biais et convergent. 

c. Plus la variance de l’estimateur est faible, plus l’am¬ 
plitude de la réalisation de l’intervalle de confiance 
sera faible. 

d. Le niveau de risque d’un intervalle de confiance est 
généralement plus faible que le niveau de confiance. 

e. Un intervalle de confiance est un segment de deux 
valeurs a et h. 


Sujets d'examen 

Estimation et loi de Rayleigh (HEC Lausanne, 
2013) 

Soient deux variables aléatoires réelles et X 2 indépen¬ 
dantes et distribuées chacune selon une loi A/^O.tr 2 ). On 
admet que la variable aléatoire transformée Y définie par 
la relation : 

Y = ^/(X 2 + X 2 ) (9.117) 

suit une loi de Rayleigh de paramètre a 2 , avec cr > 0. On 
admet que cette variable Y a pour fonction de densité : 

fv{y\o 2 )= ^ e xp|-^rj Vi/e[0, + oo[ (9.118) 

On suppose que le paramètre cr 2 est inconnu et on 
cherche à 1 ’estimer à partir d’un «-échantillon (F),..., Y n ) 
de variables i.i.d. de même loi que Y. On considère un 
estimateur cr 1 du paramètre cr 2 défini par : 
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1. Quelle est la loi de la variable Y 2 1er 1 ? En déduire la 
valeur des moments E(F 2 ) et ¥(F 2 ). 

2. Montrez que l’estimateur cr 2 est sans biais. 

3. Montrez que l’estimateur cr 2 est convergent. 

4. Montrez que l'estimateur ix 2 vérifie : 

yfnf^r 1 - cr 2 ) -4 JV(o,er 4 ) (9.120) 

5. Quelle est la variance asymptotique de l’estimateur 
o= 2 ? 

6 . Montrez que l’estimateur cr 2 est efficace au sens de 
la borne FDCR. On admet que l„ (0) = n/cr 4 , où cr est 
la vraie valeur du paramètre de la loi de Rayleigh. 

Loi exacte et loi asyniptotique (Université 
d’Orléans, 2012) 

On considère un «-échantillon de variables (Z|,...,Z„) 
i.i.d. de même loi que Z, où Z suit une loi normale cen¬ 
trée réduite. On considère une variable D„ telle que : 

n 

D„ = ^Z 2 (9.121) 

i=t 

1. Quelle est la loi exacte de la variable D„? 

2. On admet que les variables (Z 2 ,...,Z 2 ) sont i.i.d. Par 
application du théorème central limite, déterminez la 
loi asymptotique de la variable transformée : 

Vn(^-l) (9.122) 

3. On suppose que l’on dispose d’un échantillon 

de taille n - 100. Calculez la probabilité 

Pr(D„ > 118,49) en utilisant (i) la loi exacte et (ii) 
la loi asymptotique. 

Comparaison d'estimateurs (Université 
d’Orléans, 2011) 

On considère une variable aléatoire continue X distri¬ 
buée selon une loi de probabilité telle que E(X) = 0 


et ¥ (X) — 0 - 8 2 où 0 est un paramètre inconnu vé¬ 
rifiant 9 £ J0,1 [. Soit un «-échantillon (Xi,...,X„) i.i.d. 
de même loi que X. Soient 9\ et (h deux estimateurs du 
paramètre 0 respectivement définis par : 


1=1 1=1 


(9.123) 


1. Montrer que les estimateurs 0, et 0 2 sont sans biais. 

2 . Montrer que les estimateurs 0\ et 0 2 sont convergents 
(au sens de la convergence en probabilité). On ad¬ 
mettra que ¥ (X 2 ) = 2 G 2 - 20*. 

3. Peut-on déterminer quel est l’estimateur le plus pré¬ 
cis? 


4. Quelles sont les lois asymptotiques des estimateurs 
?, et 02 ? 


Estimation (d’après HEC Lausanne, 2014) 

On considère un échantillon {Xi,...,X„} de variables 
aléatoires continues i.i.d. de même loi que X, où X est 
définie sur le support X(£2) = [0,c] et admet une fonc¬ 
tion de densité égale à : 

Afi;0)=P;.tT Vx£X(.Q) (9.124) 

On suppose que la borne c est connue et que le paramètre 
6 est un paramètre positif inconnu que l’on cherche à es¬ 
timer. On admet que l’estimateur du maximum de vrai¬ 
semblance (► chapitre 10) du paramètre 9 est défini par : 


_ I " 

9 = ln (c) - - V ln (X/) 
n r—i 
1=1 


On admet que : 


(9.125) 


E (ln (X^) = ln (c) - 0 (9.126) 

1. Montrer que l’estimateur 8 est sans biais. 

2. Montrer que l’estimateur 9 est convergent. 
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Chapitre 


10 


L orsque vous sollicitez un crédit à la consom¬ 
mation sur Internet auprès d'une banque, 
vous remplissez généralement un formulaire 
en ligne et la banque vous donne immédiatement 
une réponse de principe (sous réserve de produire 
par la suite un certain nombre de documents). 
Cette réponse automatique est issue d’un modèle 
statistique que l’on appelle un modèle de score 
d’octroi. 


Par comparaison de vos caractéristiques socio- 
individuelles (salaire, âge, type d’emploi, etc.) et de 
celles de clients passés, ce modèle de scoring per¬ 
met à la banque d’évaluer votre niveau de risque et 
de vous donner une réponse immédiate quant à l’oc¬ 
troi ou non du prêt. Ces modèles de scoring sont gé¬ 
néralement des modèles paramétriques et leurs para¬ 
mètres sont presque toujours estimés par la méthode 
du maximum de vraisemblance. 
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■ Maximum de 
■/ vraisemblance 


Plan 

D Le principe du maximum de vraisemblance . 292 

Q La fonction de vraisemblance . 296 

O L'estimateur du maximum de vraisemblance. 301 

□ Score, hessienne et quantité d'information de Fisher . 309 

H Propriétés du maximum de vraisemblance. 316 


Pré-requis 

Connaître les différentes notions de convergence (► chapitre 8). 

Connaître la notion d'estimateur (► chapitre 9). 

Objectifs 

Comprendre la notion de vraisemblance. 

Savoir utiliser l'estimateur du maximum de vraisemblance. 

Savoir analyser les propriétés de l'estimateur du maximum de vraisemblance. 
Comprendre les notions de score et de matrice hessienne. 

Comprendre les différentes notions de matrices d'information de Fisher. 
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L a procédure du maximum de vraisemblance est une méthode d’estimation 
(►chapitre 9). Il s’agit donc d’une méthode statistique qui permet de déri¬ 
ver la forme fonctionnelle (ou la «formule») d'un estimateur particulier : 
l’estimateur du maximum de vraisemblance. Le principe de cette méthode est ex¬ 
trêmement simple : on part de l’hypothèse que la variable d’intérêt suit une certaine 
distribution paramétrique, i.e. une distribution caractérisée par un nombre fini de pa¬ 
ramètres. Ces paramètres sont inconnus et l’on cherche à les estimer. On utilise pour 
cela un échantillon (collection de variables aléatoires) pour lequel on dispose d’une 
réalisation, c’est-à-dire d’un ensemble d’observations. Si les variables de l’échantillon 
sont discrètes, on construit la probabilité jointe d’apparition des données de l’échan¬ 
tillon. Dans le cas continu, on construit la densité jointe associée à ces observations. 
Cette probabilité jointe ou cette densité jointe correspond à la vraisemblance de 
l’échantillon. La vraisemblance est une fonction des observations et des paramètres 
inconnus de la distribution : elle mesure la plausibilité des données observées condi¬ 
tionnellement à une hypothèse de distribution sur la variable d’intérêt et à une valeur 
des paramètres. Le principe du maximum de vraisemblance consiste alors à détermi¬ 
ner la valeur des paramètres qui rend l’échantillon observé le plus vraisemblable. Dit 
autrement, la forme de l’estimateur du maximum de vraisemblance est déterminée par 
la maximisation de la vraisemblance de l’échantillon. 

Cette méthode d’estimation est sans doute la plus utilisée en statistique et en éco- 
nométrie. Les paramètres de la plupart des modèles non-linéaires considérés de nos 
jours en marketing, en finance, en gestion des risques (scoring bancaire), en assu¬ 
rance, etc., sont estimés par maximum de vraisemblance. Une des raisons de ce suc¬ 
cès est que, sous des hypothèses relativement générales dites hypothèses de régula¬ 
rité, l’estimateur du maximum de vraisemblance présente de très bonnes propriétés. 
On peut notamment montrer que cet estimateur est sans biais, efficace et convergent 
(► chapitre 9). Il est par ailleurs asymptotiquement normalement distribué. Cette der¬ 
nière propriété est particulièrement remarquable. Quelle que soit la distribution suppo¬ 
sée de la variable d’intérêt (Poisson, exponentielle, Student, khi-deux, etc.), l’estima¬ 
teur du maximum de vraisemblance des paramètres associés à cette distribution parti¬ 
culière converge toujours vers une distribution asymptotique normale. C’est pourquoi 
cette méthode d’estimation est aujourd’hui disponible dans tous les logiciels d’éeono- 
métrie et dans certains tableurs. 

n Principe du maximum 
de vraisemblance 


Dans cette section, nous allons introduire le principe de l’estimation par maximum 
de vraisemblance à partir d'un exemple. 

On considère un «-échantillon (X\ ,...,X n ) de variables aléatoires discrètes, positives et 
i.i.d. On suppose que ces variables admettent une distribution de Poisson (► chapitre 7) 
de paramètre 0 > 0, où 6 est un paramètre inconnu que l’on souhaite estimer. La 
fonction de masse des variables Xj, pour i = est la suivante : 


Pr (Xi = x) = 


exp(-(9)fit v 

x! 


VxeN 


00 . 1 ) 
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On dispose d'une réalisation de l’échantillon (observations), notée (xq ,...,x„). Par 
exemple, pour n = 10, on observe (5,0,1,1,0,3,2,3,4,1). Quelle est la probabi¬ 
lité d’observer précisément cette réalisation de l'échantillon? Cette probabilité est 
égale à : 

Pr((Aj = X|) D ... fl (X n = x„)) (10.2) 

Puisque les variables X,- sont indépendantes, cette probabilité jointe est égale au pro¬ 
duit des probabilités marginales : 

n 

Pr((*i = Xi) n ... n (X n = x n )) = f| Pr (Xj = Xi) (10.3) 

/=! 

Si l’on suppose que les variables Xi admettent une distribution de Poisson de para¬ 
mètre 6, on obtient : 

r—i eX n (— G) G Xi x î 

Pr((X| = xi) n ... n (X„ = x„)) = -;-= exp (-nff) —-- (10.4) 

*=i x ‘■ 1 l/=i Xi ‘ 

Cette probabilité jointe est une fonction de G (le paramètre inconnu) et de l’échantillon 
(xi,... ,x„) : elle correspond à la fonction de vraisemblance de l’échantillon. On note 
cette vraisemblance sous la forme suivante : 


L„ (6; X|.x„) = Pr((Xi = xQ n ... n (X„ = x,,)) 

avec dans notre cas : 

1 


L n (6;x ..x„) = exp (-«6») x G r ‘~' Xi x —- 


(10.5) 

( 10 . 6 ) 


nu *\ 

Exemple 

Supposons que la taille d’échantillon soit égale à 10 et que l’on ait une réalisation de l’échan¬ 
tillon (données) égale à (5,0,1,1,0,3,2,3,4,1), alors : 

exp (-100) x 0 20 


L n (0,x\,...,x n ) = Pr((X] = x,) Pi... n (X„ = xj) = 


207 360 


(10.7) 


L’intuition de l’estimation par maximum de vraisemblance consiste à détermi¬ 
ner la valeur du paramètre 6 qui maximise cette probabilité d’apparition de 
l’échantillon (xi,...,x„), c’est-à-dire qui maximise la vraisemblance de l’échan¬ 
tillon. La figure 10.1 représente la fonction L n (0\x i,...,x„) pour l’échantillon 
(5,0,1,1,0,3,2,3,4,1 ) et pour différentes valeurs positives du paramètre G. On constate 
immédiatement que cette fonction atteint son maximum pour une valeur de 9 égale 
à 2. 

On peut vérifier analytiquement que cette valeur correspond bien au maximum de la 
fonction de vraisemblance. Pour cela, considérons le programme de maximisation 
suivant : 

0= argmax L n (G\x\ ,...,x„) (10.8) 

OéBX 

Dans la mesure où il est souvent plus facile de considérer des sommes que des pro¬ 
duits et que maximiser la fonction de vraisemblance est équivalent à maximiser le 

1 Cette fonction dépend de deux arguments. Le. le paramètre et l’échantillon, que l’on sépare dans les 
notations par un point-virgule, étant donnée leur nature très différente. 

2 Le terme arg max signifie l’argument qui maximise. En effet, B est défini comme l’argument de la fonc¬ 
tion de vraisemblance qui maximise cette fonction. 
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0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 

B 


▲ Figure 10.1 Vraisemblance de l'échantillon 


logarithme de cette fonction, on préfère en général maximiser la log-vraisemblance. 
Le programme devient alors le suivant : 


6 = arg max ln L n (8\ x\ ,...,x n ) 

0eR+ 


n 

ln L n (#; jci = — nO + ln ( 8) ^ x-, - 

;=i 



(10.9) 

( 10 . 10 ) 


La condition nécessaire (CN) de ce programme est la suivante : 


CN 


d ln L n (8\x u ...,x n ) 


d0 


1 

= -«+-> X: = 0 

« où 


( 10.11 ; 


On en déduit immédiatement que la valeur qui maximise la log-vraisemblance corres¬ 
pond à la moyenne empirique : 

?= - 
n 

À présent, il convient de vérifier que l’on a bien un maximum. Pour ce faire, on consi¬ 
dère la condition suffisante (CS) du programme de maximisation : 


YjXi ( 10 . 12 ) 


CS : 


d~ ln L n (G;x . . 


de 2 


= “5Z Jr ' <0 


» 2 w 


(10.13) 


Cette quantité étant négative, on a bien un maximum. Notons que le maximum de la 
fonction de log-vraisemblance (équation (10.12)) est une fonction des réalisations de 
l’échantillon x\,...,x n . C’est donc une quantité déterministe (réalisation) qui corres¬ 
pond à la réalisation de la moyenne empirique. 

Comme nous l’avons vu dans le chapitre 9, il convient de ne pas confondre un esti¬ 
mateur (variable aléatoire) et sa réalisation (quantité déterministe). Étant donnés les 
résultats précédents, on peut définir l’estimateur du maximum de vraisemblance 
(MV) de la façon suivante : 

Estimateur du MV : 6 = - V* X,- (10.14) 

n 4—2 

1=1 


L’estimateur 6 du paramètre 0 est une variable aléatoire définie comme une fonction 
des variables aléatoires de l’échantillon X\ . X„. Pour distinguer l’estimateur 6 de sa 
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réalisation, on note cette dernière 8{x). Dans notre cas : 

— 1 " 

Réalisation : 8(x) = - ) Xj (10.15) 

n 

t=i 

Pour l’échantillon (5,0,l,l,0,3,2,3i4,l), on vérifie que l’on obtient G(x) = 2. 

Remarque : Dans cet exemple introductif, nous avons considéré des variables X, dis¬ 
crètes. Bien évidemment, la méthode du maximum de vraisemblance s’applique aussi 
à des variables aléatoires continues. La seule différence est que, dans ce cas, la vrai¬ 
semblance ne s’analyse plus comme une probabilité jointe. En effet, pour une variable 
continue Pr (X, = x,) = 0, puisque la probabilité d’être en un point particulier est nulle. 
La vraisemblance de l’échantillon correspond alors à la fonction de densité de la loi 
jointe des variables X\ ,...,X n évaluée au point (xy. x„) : 

L n (0;xi,.= fx x„ (xi . x„;8 ) (10.16) 


Losm 


Programme de maximisation 


De façon générale, la fonction de vraisemblance 
dépend de deux arguments : le paramètre et la 
réalisation de l’échantillon. L’estimateur du maxi¬ 
mum de vraisemblance est obtenu en maximisant 
cette fonction par rapport au paramètre. Considé¬ 
rons une fonction / à deux variables G et x, no¬ 
tée f(G;x) où 0 € R représente le paramètre et 
x l’échantillon. La maximisation de cette fonction 
par rapport au premier argument correspond au 
programme de maximisation suivant : 


6* = arg max/(0; x) (10.17) 

Be R 


La condition nécessaire de ce programme 
consiste à annuler la dérivée partielle de la fonc¬ 
tion / (#; x) par rapport à son premier argument G, 
notée à l’aide du symbole â. Il est important de 
préciser que la dérivée partielle df (G; x) /dG est 
elle-même une fonction des variables G et x. Par 
exemple, si f(G;x) = G 1 x, alors df (G; x) /dG = 
2 Gx. Notons g (G\ x) cette fonction. On cherche 
donc la valeur G* telle que cette dérivée partielle 
soit nulle : 


g(G*;x) 


df(G-x) 


dG 


B',x 


df (G-, x) _ 
dG 0 . 

(10.18) 


La notation avec une barre verticale signifie que 
l’on considère la fonction à gauche de cette barre 
(en l’occurrence df(G\x)/G8) et que l'on évalue 
cette fonction au point situé à droite de la barre 
verticale, c’est-à-dire le couple ( G*\x ). Par souci 
de simplification, le point d’évaluation est sou¬ 
vent noté G* puisque le second argument de la 
fonction est toujours le même et correspond à 
l’échantillon. 

La condition suffisante permet de vérifier que la 
solution G* est bien un maximum. Pour cela, il suf¬ 
fit de vérifier que la dérivée seconde de / (0; x) par 
rapport à G , évaluée au point G *, est négative. On 
note cette dérivée seconde sous la forme h (G\ x) = 
d 2 f(8\x)/â(r. Notons que le carré apparaît sur le 
symbole de la dérivée partielle d et sur l’argument 
par rapport auquel on dérive : G 2 signifie donc que 
l’on dérive deux fois par rapport à G. Par exemple, 
si f(G;x) = G 2 x, alors d 2 f (G; x) /GG 2 = 2x. De 
façon générale, on cherche à vérifier que : 


h{ft\x) 


d 2 f (&', x) 
dG 1 


dg (G; x) < 
dG e . < 

(10.19) 
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Fonction de vraisemblance 


Nous commencerons par présenter le concept de fonction de vraisemblance dans le 
cadre d’un problème avec un seul paramètre à estimer, puis nous étendrons cette défi¬ 
nition au cas avec plusieurs paramètres et à la notion de modèle économétrique. 


Définitions 



Soit X une variable aléatoire (discrète ou continue) définie sur un univers probabilisé 
(X (11) , ( F, Pr), dont la loi de probabilité est caractérisée par une fonction de densité ou 
une fonction de masse notée fx (x; 8), Vx e X (O). Cette fonction dépend d’un para¬ 
mètre inconnu, noté 8, avec 6 e 0 c R où 0 désigne l’ensemble des valeurs possibles 
pour ce paramètre. Afin d’estimer 8, on dispose d’un «-échantillon (Aj ,...,X n ) de va¬ 
riables i.i.d. de même loi que X. La réalisation de cet échantillon est notée (xq.x„) 

ou x en abrégé. 

Remarque : La méthode d’estimation du maximum de vraisemblance suppose que 
l’on connaisse la loi de la variable X ou de façon équivalente, la loi des variables de 
l’échantillon. Plus précisément, on connaît la forme de la fonction de densité (ou de 
masse) de X, mais cette forme dépend d'un paramètre inconnu. Il y a donc une sorte 
de « pari » sur la distribution de X. Mieux vaut ne pas se tromper... 

Ainsi, afin d’appliquer la méthode du maximum de vraisemblance, il est absolument 
nécessaire de « postuler » une distribution paramétrique pour la variable d’intérêt, 
c’est-à-dire une fonction de densité ou de masse paramétrée par un ou plusieurs para¬ 
mètres inconnus. 

Exemple 

On suppose que la durée de vie d’un équipement peut être représentée par une variable aléa¬ 
toire continue et positive D admettant une distribution exponentielle d’intensité 1/0 où 0 est 
un paramètre réel positif. Sa fonction de densité est définie par : 



( 10 . 20 ) 


Sous ces hypothèses, nous pouvons déterminer la vraisemblance de l’échantillon. 
Dans la section 1 , nous avons vu que la vraisemblance est définie par la densité ou la 
probabilité jointe associée aux réalisations de l’échantillon. Si les variables X],...,X„ 
sont indépendantes, cette densité ou cette probabilité jointe peut s’écrire comme le 
produit des densités ou des probabilités marginales. 


Définition 10.1 

La fonction de vraisemblance de l’échantillon (xq ,...,x„) est définie par : 


L n : 0 xX (Q)" -> R + 


( 10 . 21 ) 


n 



( 10 . 22 ) 
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La vraisemblance étant définie comme un produit de fonctions de densité ou de pro¬ 
babilités (fonction de masse), cette quantité est nécessairement positive. 

Remarque : Il est important de spécifier ce à quoi se rapporte la fonction de vraisem¬ 
blance : il s’agit soit de la vraisemblance d’un échantillon, soit de la vraisemblance 
d’une observation, etc. Il convient d’éviter, dans la mesure du possible, les expressions 
du type « fonction de vraisemblance » ou « vraisemblance ». 

Comme l’illustre la figure 10.2, la fonction de vraisemblance d’un échantillon dépend 
de deux arguments : le paramètre 0 et la réalisation de l’échantillon (xi,...,x„). Ces 
deux arguments sont des constantes déterministes : la vraisemblance de l’échantillon 
est donc une quantité déterministe (valeur constante). 


Échantillon (réalisation) 
x1,x2,..,xN 


Une valeur du paramètre e 



Fonction de vraisemblance 
Ln(6; x1,..xn)=prod f(xi;0) 


▲ Figure 10.2 Fonction de vraisemblance d'un échantillon 


Définition 10.2 

La fonction de log-vraisemblance de l’échantillon (xi ,...,x„) est définie par : 

4 : 0xX(n)"->R (10.23) 

n 

(0-,x ..x„) i—> 4(0;xi,...,x„) = \nf x (x,-; 6) (10.24) 

i=l 


La fonction de log-vraisemblance, contrairement à la vraisemblance, peut être positive 
ou négative. Bien évidemment, on vérifie que : 

... = ln L n (d;xi ,...,x„) (10.25) 

Exemple 

On considère un «-échantillon ( D \de variables aléatoires continues, positives et i.i.d. 
On suppose que les variables D, admettent une distribution exponentielle £>xp(\/0), où 0 > 0 
est un paramètre inconnu. La fonction de densité des variables D,- est définie par : 

fo(dr,B) = ^exp|-^ 


id, e : 


(10.26) 
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Puisque les variables D, sont indépendantes, la vraisemblance associée à l’échantillon 
(d\,...,d„) est définie par : 


Ln (0; d\ . d„) = ]~[ f D (dr, 9) = Y] â exp - j 


1=1 

n 


-ÎZ* 


H, , 


= 0~" exp 

La log-vraisemblance de l’échantillon est définie par : 

i, 


" " I d \ 

’n (fl; d t . d n ) = ^ lnf D ( d,\ 0) = 2 - ln (fl) - A 

i=l /=! ' ' 

1 - 

= ~n In (9) - - ^ d-, 


(10.27) 

(10.28) 

(10.29) 

(10.30) 


La figure 10.3 représente la fonction de log-vraisemblance obtenue pour un échan¬ 
tillon 13,6952; 0,0597; 0,0876; 1,4457; 0,4456} de taille n = 5. 



▲ Figure 10.3 Log-vraisemblance de l'échantillon 


Remarque : Afin de simplifier les notations, on note parfois les fonctions de vraisem¬ 
blance et de log-vraisemblance d’un échantillon de la façon suivante : 

L n (fl; x) = L (fl; x,,... ,x„) = L n (fl) (10.31) 

t n (fl; jc) = lnL„ (fl;x) = ln L (fl; x\ ,...,x n ) = ln L„ (fl) (10.32) 

Il est aussi possible de définir la vraisemblance (ou la log-vraisemblance) d’une ob¬ 
servation particulière. 

Définition 10,3 

La vraisemblance et la log-vraisemblance associées à une observation x,, pour 
i € {1. n], sont respectivement définies par : 

U (fl; x) = f x (x,-; fl) li (fl; x) = ln f x (x,-; fl) ( 10.33) 
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Par construction, ces quantités vérifient : 

n n 

L n (fl; x) = p| U (fl; x), 4 (fl; x) = Yj 4 (4 *) ( 10.34) 

i=i i=i 

Reprenons l’exemple précédent d’un échantillon de variables distribuées selon une loi 
exponentielle. 


Exemple 


On considère un «-échantillon ( D\ . D n ) de variables aléatoires continues et positives. 

On suppose que ces variables sont i.i.d. et suivent une distribution exponentielle £xp{l/8) 
avec fl > 0. Soit (d\,...,d„) la réalisation de cet échantillon. La vraisemblance et la log- 
vraisemblance associées à l’observation dp V/ = I.n, sont respectivement définies par : 

U (A; di) = f D {dp 8) = i exp (- ^ 
ti {8\ dt) = In (f D {dp 8)) = - ln (fl) - ^ (10.36) 


(10.35) 


Si d\ = 2, on a L\ (fl; d\ ) = {1/8) exp {-2/8) et € x (fl; 4, ) = - ln (fl) - 2/fl. 


2.2 


Extension au cas avec plusieurs 
paramètres 


Bien souvent, la distribution de la variable d’intérêt X ne dépend pas uniquement d’un 
seul paramètre, mais d’un ensemble de k paramètres. On définit alors un vecteur de 
paramètres, noté 8 , de dimension k X l tel que ; 


0 = 


'(h ' 
, 4 , 


(10.37) 


Exemple 

Soit une variable Y telle que Y ~ N (//,<r 2 ) alors : 


fy (y; A) = 


(T 


V2/r 


exp 


(- 


(fl-fO 2 

2a- 1 


Vy e R 


où p et cr 2 sont des paramètres inconnus. On pose k = 2 et un vecteur fl défini par : 


(*) 


(10.38) 


(10.39) 


Le fait de considérer un vecteur de paramètres ne change rien aux définitions des fonc¬ 
tions de vraisemblance et de log-vraisemblance associées à l’échantillon (jci ,...,x n ) ou 
à l’observation x,-. Reprenons l’exemple précédent. 

Exemple 

Soit un «-échantillon (K,. Y n ) N.i.d.(/r,cr 2 ) et (yi,...,y„) sa réalisation. Si l'on définit 

un vecteur de paramètres fl = (per 2 ) 1 , alors les fonctions de vraisemblance et de log- 
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vraisemblance associées à l’échantillon sont respectivement définies par : 

-VŸ 


M9;#, = ü^ exp (“^ 


= ( 0 * 2 *) "" exp 


1 n 

( n {6\ij) = ln L„ (0‘,y) = ~ ln(cr 2 )- ^ ln (2tt) — -/O 

1=1 


(10.40) 

(10.41) 

(10.42) 


2.3 


Modèle et vraisemblance conditionnelle 


Il est possible d’utiliser la méthode du maximum de vraisemblance pour estimer les 
paramètres d’un modèle économétrique. Un modèle économétrique peut être défini 
comme une relation théorique entre une variable F dite endogène (ou dépendante) et 
une ou plusieurs variables X dites exogènes (ou explicatives). 

Y = g(X\9) + s (10.43) 

où 9 est un vecteur de paramètres, g (.) une fonction de lien et s est un terme d’erreur, 
supposé aléatoire. Dans ce cas, il convient de considérer la distribution condition¬ 
nelle de Y sachant que les variables X prennent une certaine valeur. C’est à partir 
de cette distribution conditionnelle que nous allons déterminer la vraisemblance de 
l’échantillon (ÿ;,*i)" =l : on parle alors de vraisemblance conditionnelle. 

Considérons le problème général. Soient deux variables aléatoires continues’, notées 
X et Y. On suppose que la variable Y admet une distribution conditionnelle sachant 
que X = x, caractérisée par une fonction de densité conditionnelle notée fy\ x (y, 9 ), 
Vy & Y (Q) ç R. Le paramètre 9 e 0 c R est inconnu et l’on cherche à l’estimer. 
Pour ce faire, on dispose d’un «-échantillon (X/,F,)" =1 et une réalisation (x,,y„)" =1 . 
Les variables F, peuvent être dépendantes pour i = 1mais l’on suppose qu’elles 
sont indépendantes conditionnellement à Xi = x,-. 

La fonction de densité (ou fonction de masse) associée à la distribution conditionnelle 
de F sachant X = x peut s’écrire sous différentes formes : 

fY\x(y,0) = fv\x(y\ x; 9) = f Y (y\X = x;9) = f Y (y\X = x) (10.44) 

Sous ces hypothèses, on peut définir la vraisemblance et la log-vraisemblance condi¬ 
tionnelles associées à l’échantillon. 


La fonction de vraisemblance conditionnelle et la log-vraisemblance condi¬ 
tionnelle de l’échantillon ({/,-, x,)" =l sont respectivement définies par : 

n n 

L n (9; y\ x) = J~[ fy\ X ( t/,| x,-; 9 ), t n (9: y\ x) = ^ ln f Y \x ( y,\ x,-; 9) (10.45) 

1=1 ;=i 


3 On peut aussi envisager le cas où les variables X et Y sont des variables discrètes. Il suffit alors de 
considérer la fonction de masse conditionnelle (probabilité conditionnelle) en lieu et place de la densité 
conditionnelle afin de définir la vraisemblance. 
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°ù f y\x (i/il Xi\ 0) désigne la densité conditionnelle de la variable F sachant 
Xi = x h ' 


Exemple 

On considère un modèle de régression linéaire tel que : 


Yj - Xfi + £j 


(10.46) 


où Xi est une variable explicative et [i un paramètre. On suppose que le terme d’erreur e, est 
i.i.d. avec s, ~ N t0,cr 2 ). Sous ces hypothèses, la distribution conditionnelle de F sachant 
Xj = xi est une distribution normale telle que : 

Fl x, ~ N (xfi,a 2 ) (10.47) 

En effet, si X, = x, alors F = xfi + e, est la somme d’un terme constant (xfi) et d’une variable 
normalement distribuée (£,-)• La densité conditionnelle de F est donc : 

<la48) 

où 9 = (/?,cr 2 ) est un vecteur de paramètres de dimension 2x1. Conditionnellement à 
Xi = Xi , les variables F sont définies comme la somme de termes constants mais spécifiques 
à chaque observation (xfi) et de termes i.i.d. (s,)- Donc, les variables F sont indépendantes 
conditionnellement à X, - x n même si elles ne sont pas identiquement distribuées puisque 
xfi t xfi pour i t j. Sous l’hypothèse d’indépendance, la vraisemblance conditionnelle de 
l’échantillon s’écrit : 

n 

L n (0\ ij\ x) = P[ f Y \x ( ÿi\ xr,9) (10.49) 

/= 1 


-n 


-, (T 


yjïn 


exp 


|_(i^ 


- X fi) 2 

2cr 2 


(10.50) 


- [a 2 2n) 


-n/2 


exp 


^L^uji-xfiÿ 

/= 1 


La log-vraisemblance conditionnelle de l’échantillon est alors égale à : 

1 " 

£„ (0\ ij\x) = -'^\n (cr 2 ) - ln (2rr) - — ^ (iji - xfi) 2 


/=i 


(10.51) 


(10.52) 



Estimateur du maximum 
de vraisemblance 


Nous commencerons par présenter la notion d’estimateur de maximum de vraisem¬ 
blance dans le cas où le paramètre G est un scalaire, puis nous étendrons ces définitions 
au cas d’un vecteur de paramètres. 
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Définitions 


Avant de définir l’estimateur du maximum de vraisemblance comme la quantité qui 
maximise la fonction de log-vraisemblance, il convient de s’assurer que le paramètre 
G est identifiable à partir de cette fonction. 

Définition 10.5 

Le paramètre G est identifiable (ou estimable) pour l’échantillon xq ,...,x„, si pour 
toutes valeurs G* et G telles que G* t G, les lois jointes des variables (xi, ...,x n ) 
sont différentes. 


Tous les problèmes que nous considérerons dans cet ouvrage sont identifiables. Sous 
cette hypothèse, on peut définir l’estimateur du maximum de vraisemblance comme 
suit. 

Définition 10.6 

L’estimateur du maximum de vraisemblance G du paramètre G e 0 est la solu¬ 
tion du problème de maximisation suivant : 


G = arg max t n (G\ x) 


(10.53) 


De façon équivalente, on peut considérer le programme de maximisation de la vrai¬ 
semblance L n (G; x). Mais il est souvent plus simple de maximiser la log-vraisemblance 
que la vraisemblance d’un échantillon. 

Remarque : Rappelons qu’il convient de ne pas confondre l’estimateur G, qui est 
une variable aléatoire, et sa réalisation G(x) qui est une constante. Puisque la log- 
vraisemblance dépend de la réalisation de l’échantillon (xi,...,x„), l’argument qui 
maximise cette fonction dépend lui aussi de cette réalisation. Ainsi au sens strict, le 
programme de maximisation devrait donc s’écrire sous la forme suivante : 


(10.54) 


G (x) = arg max l n ( G ; x) 

6 t£0 


La résolution de ce programme permet d’obtenir l’estimation G(x) associée aux don¬ 
nées xi ,...,x n . De cette estimation, l’on déduit ensuite la forme fonctionnelle de l’es¬ 
timateur G exprimée comme une fonction des variables aléatoires X\,...,X n . Toutefois, 
afin de simplifier les notations, nous utiliserons G à la place de G (x) dans le programme 
d’optimisation et dans les conditions nécessaires et suffisantes. Au-delà des notations, 
il convient de bien faire la différence entre les deux concepts. 

La résolution du programme de maximisation de la log-vraisemblance, qui définit 
l’estimateur du maximum de vraisemblance, requiert de calculer la dérivée première 
et la dérivée seconde de cette fonction par rapport au paramètre G. Ces dérivées cor¬ 
respondent respectivement au gradient et à la hessienne. 
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Définition 10.7 


Le gradient de l’échantillon, noté g n (G;x), correspond à la dérivée partielle pre¬ 
mière de la fonction de log-vraisemblance de l’échantillon par rapport au para¬ 
mètre G : 


g„ (G; x) 


dC n (fl; x) 
d0 


(10.55) 


La hessienne de l’échantillon, notée H n (0; x), correspond à la dérivée partielle 
seconde de la fonction de log-vraisemblance de l’échantillon par rapport au para¬ 
mètre G : 


_ d 1 E n (G\ x) _ dg n (G\ x) 

de 2 ~ de 


(10.56) 


La condition nécessaire du programme de maximisation de la log-vraisemblance cor¬ 
respond à l’équation de log-vraisemblance. 


BMifittiacLlIka 

On appelle équation de log-vraisemblance l’équation associée à la condition 
nécessaire du programme de maximisation de la log-vraisemblance : 

dl n (G-, x) 


CN : g n (?; x) = 


dG 


= 0 


(10.57) 


où g n {G\ x) désigne le gradient associé à l’échantillon X| ,...,x n . 


Ainsi, le gradient évalué au point G (réalisation) doit être nul. La résolution de cette 
équation en G permet d’obtenir l’estimation du maximum de vraisemblance en fonc¬ 
tion des réalisations de l’échantillon (données) x\ ,...,x„. De cette forme fonctionnelle, 
on déduira ensuite l’estimateur du maximum de vraisemblance. Mais avant cela, il 
convient de s’assurer que la solution G est un maximum en vérifiant la condition suffi¬ 
sante du programme de maximisation. 


Définition 10.10 


La condition suffisante (CS) du programme de maximisation de la log- 
vraisemblance consiste à vérifier que la hessienne évaluée au point G est négative : 


CS:H„(ff;x) 


d l C n (G-,x) 

GB 1 


dg n (G: x) 


de s 


<o 


(10.58) 


Appliquons ces définitions dans le cadre de deux problèmes d’estimation : le premier 
exemple concerne l’estimation d’un paramètre d’une loi discrète tandis que le second 
exemple porte sur une loi continue. 

Exemple 

On considère une variable aléatoire discrète X à valeurs dans N*, supposée suivre une loi 
géométrique de paramètre G, avec 0 e ]0,1 [. On rappelle que la fonction de densité de X est 
définie par (► chapitre 7) : 

f x (x-,e) = ex(i-ey-' v*e 11,2,3,...) 00.59) 
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Soit un ^-échantillon (Xj,...,X„) où les variables X, sont i.i.d. de même loi que X. Puisque les 
variables X t sont indépendantes, la log-vraisemblance de l’échantillon (x\ est égale à : 


t„ (0; x) = ln f x (x,; G) = n ln (G) + ^ (x,- - l ) ln ( 1 - G) 
i=i ;=i 

L’estimateur du maximum de vraisemblance G est la solution du programme : 

0 - arg max £„ (0; x) 

De 10, Il 

Le gradient et la hessienne de l’échantillon sont respectivement définis par : 

N â(„(G-x) n I „ 

9” {9 ' x) = ~= o - TTi Z , iXi - l) 


dO 


;= 1 


H„ (G; x) 


d 2 £ n (0; x) n 1 


dO 2 G 2 ( | - O) 2 


lË U '" l) 


La condition nécessaire du programme de maximisation s’écrit alors : 


CN : g„ (Ô; x ) 


df„(G;x) 


I 


90 tê G 1 -9 %\ 


£(*,-l) = 0 


En réarrangeant les tennes, il vient : 


»(î> 

V /= I 


On vérifie que cette solution est un maximum : 


H„ ( 0 ; x) 


d 2 £Jf)-x) 


dO 2 


1 


G 2 (l-0) 2 t 




Puisque ^ x, = n/0, cette expression peut se réécrire sous la forme : 


H n (9;x) = 

' / ni 


i 


0 2 ( î - 0) 2 

n n 


G I 


G 2 0(1-0) 
n 

<0 


(10.60) 

(10.61) 

(10.62) 

(10.63) 

(10.64) 

(10.65) 

( 10 . 66 ) 


(10.67) 

( 10 . 68 ) 
(10.69) 

0 2 (1 - 0 ) 

Nous avons bien un maximum. Par conséquent, l’estimateur du maximum de vraisemblance 
du paramètre 0 correspond à l’inverse de la moyenne empirique : 


0 - « y, Xi 


Sa réalisation (estimation du maximum de vraisemblance) est égale à : 


Ü(x) = n 


/=! 


-1 


2-1 -ï 


(10.70) 


(10.71) 
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Exemple 

Soit X une variable aléatoire réelle, continue, positive et caractérisée par une fonction de 
densité fx (x; cr 2 j telle que : 

h (*; o -2 ) = ex p| - ^j VxeR + (10.72) 

où cr 2 est un paramètre inconnu. Afin d’estimer ce paramètre, on dispose d’un «-échantillon 

(X]. X n ) de variables i.i.d. de même loi que X. Déterminons l’estimateur du maximum 

de vraisemblance du paramètre cr 2 . Puisque les variables X, sont indépendantes, la log- 
vraisemblance de l’échantillon (x\ est définie par : 


t n (cr 2 ; x) = \nf x (*,•; cr 2 ) = -^ xf + ^ ln (x t ) - n ln (cr 2 ) 

t=1 Œ i= 1 1=1 

L’estimateur du maximum de vraisemblance cr 2 est la solution du programme : 

cr 2 = argmax l n (cr 2 ; x) 

tr 2 eR + 

Le gradient et la hessienne de l’échantillon sont respectivement définis par : 

1 

dtr 2 2 cr 4 


d£„(ir-;x) j ^ n 


1=1 


d 2 („ (o- 2 ; x) l ^ 2i n 


(10.73) 


(10.74) 


(10.75) 


(10.76) 


Conseil : Afin d’éviter les erreurs dans la dérivation par rapport à cr 2 , une solution consiste 
à effectuer un changement de variable 6 = cr 2 , puis à dériver deux fois la fonction de log- 
vraisemblance par rapport à 0. La condition nécessaire du programme de maximisation s’écrit 
alors : 


. , , d£ n (cr 2 ; x) 

CN:g„ (cr-;x)= — 2 - - 


1 " 

1 v—i -, n ^ 

= / T 2 - — = 0 

20 - 4 ^' cr 2 

l=\ 


On en déduit que : 


Cr 


i ‘ 


On vérifie que cette solution est un maximum : 

d 2 £ n ((r 2 \x) 


H n (cr 2 \x ) = 


dcr 4 


1 j n 

~ Zj^ + ^ 


(10.77) 


(10.78) 


(10.79) 


;=i 


Puisque Inn 2 = ^ x 2 , cette expression peut se réécrire sous la forme suivante : 
. /_•) \ 2 ncr 2 n n 

H n(^ x ) = —*r + 7?ï = -~ï <0 
num. 

du paramètre cr 2 est défini par : 


_4- -4— (10.80) 
(t° en en 

Nous avons bien un maximum. Par conséquent, l’estimateur du maximum de vraisemblance 

,2 


= 

2 n 4—/ 

1=1 

Sa réalisation (estimation du maximum de vraisemblance) est égale à : 

'«-îZ-î 


cr~ 


(10.81) 


(10.82) 
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3.2 


Extension au cas avec plusieurs 
paramètres 


Lorsque l’on considère un vecteur de paramètres 6 = (0\ . 6 k ) T , la définition de 

l’estimateur du maximum de vraisemblance demeure inchangée. La seule différence 
est que, dans ce cas, le gradient est un vecteur de dimension k X 1 et la hessienne est 
une matrice de dimension k x k. 


Les équations de vraisemblance correspondent alors à un système à k équations non- 
linéaires et k inconnues 6\ . 6 k '■ 


CN: g n (6,x) = 

(*xl) 


<94 (6-X) 


de 


<94 (( 9 ; x) 


86i 

de„(0;x) 


dS k 


v 0 


( 10 . 83 ) 


e 


où g n désigne le vecteur gradient. 


Remarque : Dans de nombreux problèmes, ce système n’admet pas de solution ana¬ 
lytique. Il convient alors de recourir à une méthode d’optimisation numérique (Gauss- 
Newton, Newton-Raphson, etc.). On obtient ainsi une solution numérique au problème 
de maximisation de la log-vraisemblance, c’est-à-dire une réalisation de l’estimateur, 
sans connaître la forme générale de l’estimateur. 

La matrice hessienne est une matrice symétrique de dimension k x k telle que : 


H„ (6,x) 

(kxk) 


<9 2 4 (fl;*) 
dddd r 


' d 2 t n (0-,x) <9 2 4 (6- x) d 2 t„(6\x) ’ 

de] de ] de 2 d6\de k 

d 2 e,A6;x) d 2 £ n {6\x) 

de 2 â6\ de 2 


d 2 e n {6\x) < 9 2 4 (e-.x) 

, de k de \ de 2 / 


(10.84) 


La condition suffisante du programme de maximisation de la log-vraisemblance est 
alors la suivante : 


CS : H„ (ê,x) 


d 2 ( n je-, y\x) 
âeâe T 


est définie négative 


(10.85) 


Rappelons qu’une matrice est définie négative lorsque toutes ses valeurs propres sont 
négatives. Considérons un exemple avec deux paramètres (k = 2). 
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EN PRATIQUE 

Estimation par maximum de vraisemblance 


Dans la pratique, la méthode du maximum de vrai¬ 
semblance est programmée dans la plupart des lo¬ 
giciels d’économétrie (Eviews, Stata, Rats, SPSS, 
SAS, Matlab, R, etc.). Comme l’illustre la fi¬ 
gure 10.4, lorsque l’on estime les paramètres d’un 
modèle par maximum de vraisemblance (dans le 
cas présent un modèle probit), le logiciel affiche 
les réalisations des estimateurs (estimations ponc¬ 
tuelles). Dans le cas de ce modèle probit, 


il n’existe pas de solution analytique au pro¬ 
gramme de maximisation de la log-vraisemblance. 
Le logiciel utilise alors un algorithme d’optimisa¬ 
tion numérique pour déterminer ces estimations. 
Le message « convergence achieved after 4 itéra¬ 
tions » indique à l’utilisateur que cet algorithme 
itératif a convergé vers le maximum de la fonction 
de log-vraisemblance en 4 itérations. 


Dépendent V ariable Y 
[Method ML } Binary Probit 
Dâte~ü8730m Time 23:36^ 
Sample 1 32 
Included observations 32 


Convergence achieved after 4 itérations 

Covariance matnx computed using second dérivatives 

Variable 

Coefficient 

- 

- 

XI 

1 409575 

0 635467 2 218172 

0.0265 

X2 

0 052667 

0 075553 0 697094 

0.4857 

C 

-6 034326 

2 121031 -2 844997 

0.0044 

Mean dépendent var 

0.343750 

S D dépendent var 

0482559 

S E of régression 

0 420296 

Akaike info critenon 

1 197010 

Sum squared resid 

5 122808 

Schwarz chterion 

1 334423 

Log likelihood 

-16 15216 

Hannan-Quinn criter 

1 242558 

Restr log likelihood 

-20 59173 

Avg log likelihood 

-0 504755 

LR statistic (2 df) 

8 879145 

McFadden R-squared 

0 215600 

Probability(LR stat) 

0 011801 



Obs with Dep=0 

21 

Total obs 

32 

Obs with Dep=1 

11 




Méthode d'estimation 
ML = Maximum 
likelihood 


Réalisations des 
estimateurs du maximum 
de vraisemblance des 
paramètres 


▲ Figure 10.4 Exemple de sortie du logiciel Eviews : estimation par maximum de vraisemblance d'un 
modèle probit 


Exemple 

On considère un «-échantillon (Y\ . Y„) N.i.d.(m,<r 2 ) où les paramètres m et a 2 sont incon¬ 

nus. On souhaite les estimer par maximum de vraisemblance. Pour cela, on définit un vecteur 
de paramètres 6 - (/n,oQ T . Pour une réalisation de l’échantillon (i)\ l’estimateur 8 

vérifie : 

6= arg max £„ (G\ y) (10.86) 

o- 2 €R + ,melR 

n n i n 

(0; y) = ” ln ( f7_2 ) ~ \ ln (2 tt) - 7 (iji - m) 1 (10.87) 
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Le gradient de l’échantillon (ij\,...,y„) est un vecteur 2 x 1 défini par : 


de,, ( 0 ; y) 
de 


d( n (fl; y) 


dm 


de AO-y) 


. dcn 



1 X t 

— £ (iji - m) 

1=1 

1 n 

Tl 1 vn -j 

1=1 


( 10 . 88 ) 


La condition nécessaire du programme de maximisation (équations de log-vraisemblance) 
correspond à un système à deux équations et deux inconnues, à savoir m et <r 2 : 


ln (Â; y) = 


dC„ (0\ y) 


— £ (y, - m) 

;=i 

1 

2cr 2 2 tr 4 


On en déduit une solution 


avec 


M 

= - n t*=ÿ- * 2 = 


(10.89) 

(10.90) 

00.91) 

i=\ i=l 

On vérifie que cette solution est un maximum. Pour cela, on construit la matrice hessienne : 

dH n (0\y) d 2 e n (0-y)\ 

d 2 e„(0;y) 


HAOuj) 


Dans notre cas, on obtient : 


dQd0 T 


H„ (e\y) = 


CT* 


dm 2 âmdcr 2 

d 2 [ n y) d 2 C„ (0\ y) 

( âcr 2 âm dcr 4 


1 V -1 

— ^ iVi ~ m) 


(10.92) 


(T 4 


n | n 

1=1 1=1 


(10.93) 


On évalue la matrice hessienne au point 6 : 


H„(0:y) 


CT- 






(10.94) 


Puisque nxm = ^ y, et « x tr 2 = ^ (y, - m) 2 , on obtient : 


fl» (5; y) = 


-=r 0 


o 


{ -k ° 

(T 2 

„ H 
° _ 2^* 


(10.95) 


n na~ 

2a 4 CT* 

Cette matrice diagonale est définie négative car les éléments de sa diagonale sont tous né¬ 
gatifs. Nous avons bien un maximum. Les estimateurs du maximum de vraisemblance des 
paramètres m et tr 1 sont définis par : 


= Y„ = -'£ J Y i , ^ ~ X ( K '“ Y ") 

n n v 7 

1=1 1=1 


(10.96) 
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Notons que l’estimateur du maximum de vraisemblance de la variance cr 2 correspond 
à la variance empirique non corrigée (► chapitre 9). 

Fi Score, hessienne et quantité 
d'information de Fisher 

Afin d’étudier les propriétés de l’estimateur du maximum de vraisemblance dans la 
section 5, nous devons à présent définir deux nouveaux concepts : le score et la quan¬ 
tité d’information de Fisher. Nous reviendrons en outre sur la notion de hessienne en 
introduisant une version stochastique de cette dernière. Dans un premier temps, nous 
présenterons les définitions dans le cas où le paramètre 8 est un scalaire, puis nous 
étendrons ces débilitions au cas vectoriel. 


o 

c 

ri 

û 


o 

rM 

© 


en 


>- 

CL 

O 

U 


4.1 


Score et hessienne 


Définition 10.11 


Le score de l’échantillon (X|. X„) est une variable aléatoire définie par : 


s n W;X) 


de„(9-X) 

de 


(10.97) 


La forme du score est similaire à celle du gradient. Pourtant, il convient de bien dis¬ 
tinguer les deux notions. Rappelons que la fonction de vraisemblance dépend de la 
réalisation de l’échantillon (xi C’est pourquoi la log-vraisemblance est notée 

sous la forme C n (8;x\ ou de façon plus concise C n (8\x), la variable x en mi¬ 

nuscule renvoyant à la notion de réalisation. Le gradient est défini comme la dérivée 
partielle de la fonction de log-vraisemblance par rapport à 8 : le gradient est donc une 
quantité déterministe (constante), que l’on note g„ {8\ x) = d( n ( 8 ; x)/d8. 

À l’inverse le score correspond à la dérivée d’une « version » stochastique de la fonc¬ 
tion de log-vraisemblance dans laquelle on remplace les réalisations xj ,...,x„ par les 
variables aléatoires de l’échantillon X\,...,X n : le score est donc une variable aléa¬ 
toire. C’est pourquoi on note le score sous la forme S n (8\ X) = dt n (8: X)/d8 où la 
variable X notée en majuscule renvoie à la notion de variable aléatoire. 

Le score étant une variable aléatoire, on peut caractériser sa distribution et ses mo¬ 
ments (espérance, variance, etc.). La propriété essentielle du score concerne son espé¬ 
rance. 

Propriété 

Espérance du score 

Pour toute valeur du paramètre 8 e 0, le score de l’échantillon vérifie : 

E (S „ (0; X)) = 0 (10.98) 


Cette propriété ne s’applique pas au gradient. En effet, puisque la quantité g n (8\ x) 
est une constante, son espérance vérifie E (g„(8\x)) = g„ (8: x). Or, cette quantité 
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n’est pas nulle quelle que soit la valeur du paramètre G. Le gradient ne s’annule que 
pour une valeur précise, correspondant à la réalisation de l’estimateur du maximum 
de vraisemblance : 


g n (7)\ x) = 0 contre E (S„ (0; X)) = 0 V0 e 0 


(10.99) 


Remarque : Dans l’énoncé de cette propriété, on précise parfois que l’espérance cor¬ 


respond à l’espérance par rapport à la « vraie » loi de la variable X, c’est-à-dire celle 


obtenue pour la vraie valeur du paramètre G 0 . On note l’espérance par rapport à cette 
loi sous la forme E W(I . Par exemple si X suit une loi exponentielle Sxp (1 /8) et que la 
vraie valeur du paramètre G est égale à 0 q = 2, alors l’espérance E# 0 (S„ (6; X)) s’écrit 


comme : 



( 10 . 100 ) 


( 10 . 101 ) 


Le score S „ (0; X) est évalué en G, tandis que la densité est évaluée en Go. 

Appliquons la propriété du score. 

Exemple 

Soit un «-échantillon de variables continues, positives et i.i.d. (D\,...,D n ) admettant une dis¬ 
tribution exponentielle Sxp (1/(9) avec E(D ; ) = 0 où 0 > 0 est un paramètre inconnu. La 
fonction de densité de D, est la suivante : 



( 10 . 102 ) 


Par conséquent la log-vraisemblance de l’échantillon (d\ . d„) est définie par : 



(10.103) 


i=i 

Le gradient de l'échantillon (quantité déterministe) est égal à : 



(10.104) 


La fonction t n (G; D) est identique à la log-vraisemblance t n (9\ D) sauf que les réalisations d, 
sont remplacées par les variables aléatoires D, : 



(10.105) 


i=l 

Le score de l'échantillon (variable aléatoire) a une forme similaire au gradient : 



(10.106) 


On vérifie que son espérance est nulle puisque : 



(10.107) 



(10.108) 


« « x 6 



(10.109) 

( 10 . 110 ) 
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De la même façon que l’on distingue le score (aléatoire) et le gradient (déterministe), 
on peut distinguer deux types d’hessienne : une hessienne déterministe (fonction de 
x\,...,x n ) et une hessienne stochastique (fonction des variables aléatoires de l’échan¬ 
tillon X .. X n ). Cette dernière est notée de la façon suivante : 

H n (B- X) = d - e " - ~ X) (10.111) 

Le tableau 10.1 résume les différents concepts de gradient, score et hessienne, ainsi 
que les notations associées. 

▼ Tableau 10.1 Résumé des différents concepts de score, gradient et hessienne 


Variable aléatoire Constante 


gradient : g n (6;X) = dfn ^' 
oO 

hessienne : H„ (»;*) = 


EH Information de Fisher 

À partir de ces éléments, nous pouvons à présent définir la quantité d’information 
de Fisher, du nom du statisticien britannique Ronald A. Fisher (1890-1962). Cette 
quantité est notamment utilisée pour montrer qu’un estimateur est efficace au sens de 
la borne FDCR ou de Cramer-Rao (► chapitre 9). 

Définition 10.12 

La quantité d'information de Fisher associée à l’échantillon est une constante 
définie par la variance du score ou l’espérance de l’opposée de la hessienne sto¬ 
chastique : 

I„ {6) = V(S n (6; X)) = E (~H„ (6\ X)) (10.112) 


score : S n ( 0; X) = 


dC n {0]X) 


hessiennne : H n (6]X) = 


de 

d 2 (r (Q;X) 

de 2 


TD 

a 

c 

û 


o •§ 
(N 


© 


en 


>- 

CL 

O 

U 


Exemple 


Soit un «-échantillon de variables positives (D\,...,D„) i.i.d. admettant une distribution ex¬ 
ponentielle &xp( 1/0) où 0 > 0 est un paramètre inconnu. D’après les propriétés de la loi 
exponentielle, nous savons que E (D t ) - 0 et V (ZD,) = 0 1 . La densité de la loi exponentielle 
est définie par : 


f n ( d\ 6) = - exp 

U 



V<Z e R + 


(10.113) 


On en déduit la log-vraisemblance de (d\,...,d n ), le score et la hessienne (stochastique) : 


1 - 

4 (6»; d) = -n ln (0) - - ^ di 

i= 1 

(10.114) 

S„(6>;Z» = ~ + i2> 

/= 1 

(10.115) 

/=! 

(10.116) 
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Déterminons à présent la quantité à.'information de Fisher associée à l’échantillon. Utilisons 
pour cela la première définition (variance du score) : 


I„(0) = V(S„(0;D)) = V 


f-î + i 
{ 0 0 2 



(10.117) 


^S V < D '> 

i=\ 


n x 0 2 

e* 


n 

¥ 


(10.118) 


On vérifie qu’en utilisant la seconde définition (opposée de l’espérance de la hessienne), on 
obtient la même quantité : 


I„(0) = E(-//„(0;X)) = E 


O n 

n 2 v-i 
~¥ + ¥^ Di 


/= 1 


i= 1 

n 2 x n x 0 n 

'¥ + ¥ = ¥ 


(10.119) 

( 10 . 120 ) 


Remarque : Le score ayant une espérance nulle, il existe une troisième formule équi¬ 
valente pour définir la quantité d’information de Fisher de l’échantillon. En effet : 


V(5„ (0; X)) = E(S 2 n (0; X)) - (E(S„ (0; X))) 2 = E(S 2 (0; X)) ( 10.121 ) 

Par conséquent, la quantité d’information de Fisher peut être définie par : 

I„(0) = E(S 2 (0;X)) (10.122) 


Finalement, on peut étendre ces définitions (score, hessienne, information de Fisher) 
non plus au cas d’un échantillon, mais au cas d’une observation x, particulière. De 
façon générale, si l’on note I, ( 0 ) la quantité d’information de Fisher associée à la i eme 
observation de l’échantillon, on a bien sûr une relation du type : 

n 

L (0) = J] I‘ ( 0 > (10.123) 

;=i 


avec par définition : 


I, (6) = V (5(0; X/)) = E {-H, (6; X,)) (10.124) 


où S, (0; X,) et H , (6\ X,) désignent respectivement le score et la hessienne associés à 
la variable X, pour i e {I 


Si (G’Xi) 


dCj^Xj) 

de 


Hiie-Xi) 


d^AB-Xj) 

de 2 


(10.125) 


Lorsque l’on considère des distributions marginales (c’est-à-dire lorsque l’on ne 
considère pas un modèle économétrique), les quantités d’information de Fisher de 
toutes les observations i = 1 sont strictement identiques : la quantité I, (6) ne 
dépend pas de l’indice i. 

1,(0) = 1(6») (10.126) 


D’après l’équation (10.123), la somme des quantités de Fisher individuelles corres¬ 
pond à celle de l’échantillon. On obtient ainsi une relation évidente entre les quantités 
1(0) et I„ (0) : 

n 

/« (0) = ^ // (0) = rtx 1 (0) (10.127) 

i=i 
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Dans le cas d’un modèle économétrique, la quantité d’information de Fisher associée 
à une observation et la quantité moyenne diffèrent, mais on peut toujours définir cette 
dernière de la façon suivante. 

DMnLÜQnJlflJB 

On appelle quantité moyenne d'information de Fisher, la quantité 1(6/) telle que : 

1(6») = -xl„(0) (10.128) 

n 


O 

c 

ri 

û 


o -g 
(N 


© 


en 


> 

CL 

O 
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Nous utiliserons cette quantité moyenne pour caractériser la distribution asymptotique 
de l’estimateur du maximum de vraisemblance dans la section 5. 


Exemple 


Reprenons l’exemple précédent d’un échantillon de variables D\,...,D n i.i.d. suivant une 
loi exponentielle &x:p{\/6) avec 6 > 0, E(D,) = 6 et V(D,) = (F, Vf = 1La log- 
vraisemblance associée à une observation d, correspond au logarithme de la densité : 

ti (6; dt) = ln f D> (, d6) = - ln (6) - -j- (10.129) 

U 

Le score et la hessienne associés à la variable D, sont définis par : 


5,(6; Di) = 


tf,(6;D,) = 


df,-(6; Dj) 

86 

d 2 {, (6; Dj) 
d0 2 


— + -2 

e e 2 

1 2 D, 

¥~l r 


(10.130) 

(10.131) 


Selon la première définition (variance du score), la quantité d’information de Fisher associée 
à cette observation est égale à : 


I, (6) = V (5, (6; Dd) = V 



= ^V(D,.)=- 


(10.132) 


On vérifie que la seconde définition (opposée de l’espérance de la hessienne) donne la même 
quantité : 


1,(6) = E(-//,.(6;D,)) = e|-^-^J| 

1 2 x E(D,) _ 1 2x6 1 

~~0 2 + 6 3 -~ 6 I+ 6 3 ~ ë 2 


(10.133) 

(10.134) 


Dans ce cas, la quantité d’information associée à la variable X, ne dépend pas de l’indice i : 
elle correspond à la quantité moyenne d’information de Fisher. 


I/(6) = I(6)= ~ (10.135) 

Dans l’exemple précédent, nous avions vu que la quantité d'information de Fisher associée à 
Véchantillon était égale à : 

U6)=s (10.136) 

U 

On a donc une relation entre la quantité d’information de Fisher associée à Y échantillon et la 
quantité moyenne d’information de Fisher du type : 


I„ (6) = /i x I (6) 


(10.137) 
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FOCUS 

Modèle économétrique et information de Fisher 


Dans le cadre d’un modèle économétrique, la log- 
vraisemblance est fondée sur la distribution condi¬ 
tionnelle de la variable endogène F sachant que la 
variable explicative est fixée à une certaine valeur, 
i.e. X = x. Soit £„ (6\ Y\x) la log-vraisemblance 
conditionnelle de l’échantillon (t//,x,)" =I . On peut 
définir le score et la hessienne associés à une va¬ 
riable Yi conditionnellement à X, = x, de la façon 
usuelle : 

c tf\ \/1 x dti{6\ f/|x,) „„ no , 

Si(0\ F,| x,) =-—-, (10.138) 

oO 

Ht (0; Y t \ Xi ) = ( 1 o. 139) 

ofr 

La quantité d’information associée à cette variable 
Yi est définie par la variance du score ou l’espé¬ 
rance de l’opposée de la hessienne : 

I; (0) = V (S i (e- Yi\ Xi)) = E (-//, ( e ; F,|x,)) 

(10.140) 

Mais cette quantité dépend alors de l’observa¬ 
tion x,-. Par conséquent, la quantité d’information 
de Fisher associée au i eme individu de l’échantillon 
peut ne pas être identique à celle du j eme individu : 

1/ (0) £ I j (0) pour i t j si x,- # x ; - (10.141) 


Dans ce cas, la quantité moyenne d’information 
de Fisher est définie par l’espérance de la quantité 
individuelle associée à la variable F,; : 

I «9) = (1/ (6>)) (10.142) 

où le terme Ex désigne l’espérance par rapport à la 
distribution de la variable explicative X. L’idée est 
de construire une sorte de « moyenne » des quan¬ 
tités individuelles pour toutes les valeurs possibles 
de X. Par construction, on retrouve alors l’égalité : 

I(0) = - xl„(0) (10.143) 

n 

Ainsi, dans le cas d’un modèle économétrique, 
il devient important d’indicer les espérances afin 
d’éviter les confusions. La définition de la quan¬ 
tité moyenne d’information de Fisher devient : 

1(0) = Ex(V fib (S,(0; F;| xj))) 

= E x (E en (-Hi(e- F/| x,))) (10.144) 

où Ex désigne l’espérance par rapport à la distribu¬ 
tion de la variable explicative X et E# 0 désigne l’es¬ 
pérance par rapport à la vraie loi conditionnelle 
de F sachant X - x. 


ETEl Extension au cas avec plusieurs 
paramètres 


Nous pouvons à présent étendre les définitions précédentes (score, hessienne, infor¬ 
mation de Fisher) au cas où 0 = (6i,...,6k) T désigne un vecteur de k paramètres. Le 
score correspond alors à un vecteur de dimension (x 1 tel que : 


(10.145) 


Par définition, le score vérifie : 


S„(0-,X) = 

Ùxl) 


de n (8-,X) 

de 



E(S n (0;X)) = 0 

otxl) (*x1) 


(10.146) 
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La matrice hessienne (stochastique) est une matrice de dimension k X k similaire à 
celle de l’équation (10.84) : 


H„ (6,X) 

(kxk) 


d 2 e n (o-,x) 

d0d6 T 


d 2 e n (e-,x) d 2 4(fl;X) d 2 e n w-,x) ' 

de 2 de,de 2 de,de k 

d 2 C n (6\X) d 2 l n (fl; X) 

de 2 d 0 \ de 2 

d 2 t n (( 9 ; X) d 2 e n {e\X) 

do k de \ de 2 , 


(10.147) 


La matrice d’information de Fisher de l’échantillon est une matrice de dimension 
kxk définie par l’une des trois relations suivantes : 

I„ (0) =V(S„(0\X)) = E(-H n (e-,X))=E(s n (6-,X)xS n (6-X) T ) (10.148) 

Reprenons l’exemple précédent d’un échantillon normal. 

Exemple 

On considère un «-échantillon (f) ,...,Y n ) N.i.d. («î,ct 2 ) où les paramètres m et cr 2 sont incon¬ 
nus. On définit un vecteur de paramètres 6 = (/«,cr 2 ) T avec k = 2. La log-vraisemblance de 
l’échantillon (ij\,...,y„) est définie par : 


fl u i " 

Cn ( 0 ; y) = -\ ln (o- 2 ) - ^ ln (2 n) - — (iji - m) 


2 -\- > 2 
Le score de l’échantillon est un vecteur 2x1: 


Sn (0-, Y) = 


dC„ (0\ Y) 
de 


dt„ (0\ Y) 
dm 

dk„ (fl; Y) 
der- 


~2 Y, (Yi-m) 

(T- 

i=l 


La matrice hessienne (stochastique) est une matrice 2x2 définie par : 

d 2 C„ (fl; Y) d 2 C„ (fl; Y) 


H„ ( 6 ; Y) = 


d 2 e„ ( G ; Y) 
dodtr 


n 

(T 2 


dm 2 dmd(T 2 

d 2 („ Y) d 2 („ (G- Y) 
dcr 2 dm do 4 


1=1 


1=1 f=l 


(10.149) 


(10.150) 


(10.151) 


(10.152) 


(10.153) 
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Par conséquent, la matrice d’information de Fisher associée à l’échantillon est égale à l’es¬ 
pérance de l’opposée de la hessienne (première définition) : 

1„(0) = E F)) (10.154) 



C T 4 


Ÿ^(Yi-m) 

i=\ 


/=! i= I 


(10.155) 


O " 4 


ŸjE (Yi-m) 


i= 1 

jXir,-,„)■) 

1=1 / 


/=1 


(10.156) 


Puisque E (y,) = m, on a E(F, - m ) - 0. De plus, par définition de la variance E((7, -m) 1 ) = 
cr 2 . On montre ainsi que la matrice d’information de Fisher associée à l’échantillon est une 
matrice 2x2 symétrique et définie positive telle que : 

0 

L (0) - <r ' „ 

, ^ 2 cr 4 

La matrice d’information moyenne de Fisher est alors égale à : 


(10.157) 


1(8) = -xl„(0) = 
n 


'L o 


2 cr 4 


(10.158) 



Propriétés du maximum 
de vraisemblance 


La question qui se pose à présent est de savoir si l’estimateur du maximum de vrai¬ 
semblance est un « bon » estimateur. Est-il sans biais, efficace et convergent ? Quelle 
est sa distribution asymptotique ? Afin d’étudier ces propriétés nous allons poser des 
hypothèses sur la distribution de la variable d’intérêt X. Ces hypothèses sont qualifiées 
d’hypothèses de régularité. 

Les hypothèses de régularité sont au nombre de trois : 

■ Hypothèse 1 : la fonction ln fx (#; jc,-) est trois fois différentiable par rapport à 6. Ses 
dérivées sont continues et finies pour toute valeur de x et de 6. 

m Hypothèse 2 : Les espérances des dérivées première et seconde de In fx (6; Xi) par 
rapport à 6 existent. 

■ Hypothèse 3 : la vraie valeur de 6 , notée 8q, appartient à un ensemble compact 0. 
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Sous ces hypothèses de régularité, on peut montrer que l’estimateur du maximum de 
vraisemblance présente de bonnes propriétés : 

1. L’estimateur du maximum de vraisemblance est convergent. 

2. L’estimateur du maximum de vraisemblance est asymptotiquement efficace. 

3. L’estimateur du maximum de vraisemblance est asymptotiquement normalement 
distribué. 

Emfidéîé 

Convergence 

Sous les hypothèses de régularité, l’estimateur du maximum de vraisemblance 8 est 
convergent (au sens faible) : 

?4 (9 0 (10.159) 

où 8q désigne la vraie valeur du paramètre 6. 


Cette propriété 1 est particulièrement importante car elle implique que les réalisations 
de l’estimateur 6 auront de grandes chances d’être très concentrées autour de la vraie 
valeur du paramètre si la taille d’échantillon n est suffisamment grande (► chapitre 9). 
Considérons un exemple. 


Exemple 

Soit un «-échantillon () de variables positives et i.i.d. admettant une distribution 
exponentielle &xp( 1/0). Le logarithme de la densité de la loi exponentielle, défini par : 

ln f D (d\0) = - ln (0) - - W/ e R + (10.160) 

6 

vérifie les hypothèses de régularité. La log-vraisemblance de l’échantillon (d\ 1 ...,d n ) est 
égale à : 

1 n 

e n {0-,d) = -n\n(0)--Yj d > (10.161) 

i= 1 

On admet que l’estimateur du maximum de vraisemblance est défini par : 


e 


i " 

= '2> 

n é—* 


(10.162) 


Montrons que cet estimateur est convergent. Soit 0q la vraie valeur du paramètre. D’après les 
propriétés de la loi exponentielle, nous savons que E (Z>,) = 0 O et V (/),) = 0 q. Dès lors, il 
vient : 


E(ê) = V 0,1 = - Ve ( d,) = 414 =0 O 

v ' \ n n n 

\ i=i / i=i 


L’estimateur 6 est sans biais. De plus : 

I 


Par conséquent : 


E(d) = 0 o limVfê) = 0 

\ / n —»oo V / 


Donc l’estimateur 6 est convergent (au sens faible) : 

6 —» 0 O 


(10.163) 

(10.164) 

(10.165) 

(10.166) 


4 Pour une démonstration de cette propriété, voir Amemiya (1985). 
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Sous des hypothèses de régularité plus strictes, il est possible de montrer que l’esti¬ 
mateur du maximum de vraisemblance 9 est convergent au sens fort, c’est-à-dire qu’il 
converge presque sûrement vers 9q. 

Propriété 

Efficacité 

Sous les hypothèses de régularité, l’estimateur du maximum de vraisemblance est 
efficace. Sa variance atteint la borne FDCR ou borne de Cramer-Rao : 

V(ë) = I n > 0 ) (10.167) 

où I„ (#o) désigne la quantité d’information de Fisher associée à l’échantillon et 
évaluée au point 9q, vraie valeur du paramètre. 


Ainsi, sous les hypothèses de régularité, l’estimateur du maximum de vraisemblance a 
la plus faible variance possible comparativement à celles de tous les estimateurs sans 
biais. C’est donc un estimateur relativement précis. Considérons un exemple. 


Exemple 

Soit un H-échantillon (Xi,...,X„) de variables aléatoires discrètes i.i.d., définies sur N et ad¬ 
mettant une distribution de Poisson de paramètre 9 > 0 telle que : 


fx, U; G) = Pr (X, = = exp (-0) — Vx, e : 


(10.168) 


La fonction ln fx. (x,;0) satisfait les hypothèses de régularité. Montrons que l’estimateur du 
maximum de vraisemblance G du paramètre 9 est efficace au sens de la borne FDCR. La 
log-vraisemblance de l’échantillon (xi,...,x„) est égale à : 

n n 

l n (0; x) = -9 + In (9) ^ x, - ^ ln (x, !) ( 10.169) 

i=i ;=i 

On admet que l’estimateur du maximum de vraisemblance est défini par : 

___ « " 

9=-Yx, (10.170) 

n M 

Sachant que E(X,) = V (X, ) = Go , où Go désigne la vraie valeur du paramètre G, on en déduit 
la variance de l’estimateur G : 

V(g) = v(- y X ,) =\y V (Xi) = ^ (10.171) 

' ' n n 2 x—i n 

V i=l i=l 

Déterminons la borne FDCR. Le score et la hessienne (stochastique) associés à l’échantillon 
sont respectivement définis par : 


S „ (G; X) = 


d In L„ (9-, X) 
39 




H„ (6;X) = 


3 2 ln L„ (G; X) 
36 2 


G 2 £ 


2 > 


(10.172) 


(10.173) 


La quantité d’information de Fisher associée à l’échantillon est égale à l'espérance de l’op¬ 
posée de l a hessienne : 


t i " 

I„ (9 0 ) = E(-H„ (96; X)) = E - £ X, 

\ u o hr 


1 v - ' _ „ n x Gn n 

= > E(X;) = -= — 

G 2 4-t G 2 Go 


l '0 i=| 


(10.174) 

(10.175) 
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On vérifie que la variance de 8 atteint la borne FDCR : 

v(ê) = l- 1 (6»ü)= ~ 

Par conséquent, l’estimateur du maximum de vraisemblance 0 est efficace. 


(10.176) 


ErSRâfiîé 

Distribution asymptotique 

Sous les hypothèses de régularité, l’estimateur du maximum de vraisemblance 8 est 

asymptotiquement normalement distribué : 

^{è-e 0 )^N(o,r i m) ( 10 . 177 ) 

où 8q désigne la vraie valeur du paramètre et I(#o) correspond à la quantité d’infor¬ 
mation moyenne de Fisher évaluée au point 6q. 


Comme nous l’avons vu dans le chapitre 9, une autre façon de comprendre ce résultat 
est la suivante. 

Corollaire 10,1 

Distribution asymptotique 

Pour une taille d’échantillon n suffisamment importante, l’estimateur du maximum 
de vraisemblance 0 est asymptotiquement et approximativement distribué selon une 
loi normale : 

( 10 . 178 ) 

Puisque I„ (#o) = nXl(#o), ce résultat peut se réécrire sous la forme suivante : 

8% y N(8 0 ,r n '(6 0 j) ( 10 . 179 ) 

où I„ (8o) désigne la quantité d’information de Fisher associée à l’échantillon, éva¬ 
luée au point 9q. 


9°l y A/L^xr'(0o) 
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Le caractère général, certains diront « magique », de la méthode du maximum de vrai¬ 
semblance réside principalement dans ce résultat : quel que soit le problème posé, 
s’il est régulier, la distribution asymptotique de l’estimateur du maximum de vraisem¬ 
blance est toujours normale. Comme l’illustre la figure 10.5, on considère un échan¬ 
tillon de variables ayant une certaine distribution (Poisson, exponentielle, Student, 
khi-deux, etc.) et l’on construit une fonction, à savoir la fonction de vraisemblance. 
En maximisant cette fonction, on obtient la forme d’un estimateur qui est une variable 
aléatoire. Or, quel que soit le problème initial, cet estimateur a toujours une distri¬ 
bution asymptotique normale. Cette « magie » ne tient en fait qu’à l’application du 
théorème central limite au score de l’échantillon (pour une démonstration formelle, 
voir Amemiya, 1985). 

La variance asymptotique de l’estimateur du maximum de vraisemblance correspond 
à la variance de sa distribution asymptotique. 
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X a une certaine distribution (par 
exemple : exp(0)) 

densité f(x,0) 



L'estimateur a toujours 
une distribution 
asymptotique normale 

î 


Ln(0; Xj,..,x„)=prod f(xi;0) 
Log-Vraisemblance 


Estimateur du MV 
0(Xi,..Xn) 


▲ Figure 10.5 Caractère général de la méthode du maximum de vraisemblance 


Définition 10.14 


La variance asymptotique de l’estimateur du maximum de vraisemblance 8 est 
égale à : 


1 asy 


(ê) = r n ] m 


où I„ (6q) désigne la quantité d’information de Fisher associée à l’échantillon, 
évaluée au point flo. Cette variance asymptotique correspond à la borne FDCR. 


Ce résultat confirme le caractère efficace (au sens de la borne FDCR) de l’estimateur 
du maximum de vraisemblance. 


EN PRATIQUE 


Estimation de la matrice de variance-covariance 

asymptotique 


De très nombreux logiciels d’économétrie per¬ 
mettent d’estimer les paramètres de modèles par 
la méthode du maximum de vraisemblance. Tous 
ces logiciels reportent (i) les estimations des para¬ 
mètres, c’est-à-dire les réalisations 8(x) et (ii) les 
écarts-types associés à ces estimateurs (standard 
envrs). Plus précisément, il s’agit de la réalisation 
des estimateurs des écarts-types (racines carrées 
des variances) asymptotiques des estimateurs 0. 
Ces écarts-types sont donc construits à partir d’un 
estimateur de la matrice de variance-covariance 
asymptotique de l’estimateur du maximum de 
vraisemblance 0. Comment estimer la matrice 
de variance-covariance asymptotique V flSÿ (fl) ? 
Nous savons que cette matrice correspond à l’in¬ 


verse de la matrice d’information de Fisher asso¬ 
ciée à l’échantillon et évaluée au point % : 


Vasy(0) = Ç‘(0O) (10.180) 


Bien évidemment, puisque 0q est inconnu, on ne 
connaîtjpas la matrice I(flo) : il convient de l’esti¬ 
mer. Si 0 converge en probabilité vers 8o, alors les 
trois estimateurs suivants : 

n 

I, (é) = £ L (fl) ( 10 . 181 ) 

;=i 



dCi (8\ Xi) 

d8 




dit (fl; Xi ) 


d8 


(10.182) 



d^tid-Xi) 


d0dd T 


(10.183) 
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sont des estimateurs convergents de la matrice 
I„ (#o)- Le premier estimateur (équation (10.181)) 
correspond à la moyenne des n matrices d’in¬ 
formation de Fisher individuelles (pour x\ . 

x n ) évaluées au point 8. Cet estimateur est rare¬ 
ment disponible en pratique. Le second estimateur 
(équation (10.182)) correspond à la moyenne des 
produits des gradients individuels évalués au point 
8. Il est connu sous le nom d'estimateur BHHH 
pour Berndt, Hall, Hall, et Hausman. Le troisième 
estimateur (équation (10.183)) correspond à l’op¬ 
posée de la moyenne des hessiennes individuelles. 
C’est l’estimateur le plus utilisé dans les logiciels 
d’économétrie. 
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Méthode d'estimation 
de la matrice de 
variance-covariance 
asymptotique 


Écarts-types 

asymptotiques 


A Figure 10.6 Exemple de sortie du logiciel 
Eviews : estimation par maximum de vraisem¬ 
blance d'un modèle probit 

L’illustration de la figure 10.6 reproduit un 
exemple de sortie du logiciel Eviews obtenue 


pour une estimation par maximum de vraisem¬ 
blance des paramètres d’un modèle probit (mo¬ 
dèle dichotomique utilisé notamment pour les 
procédures de scoring en marketing ou dans le 
domaine du risque bancaire). Dans cette sortie, 
la phrase « Covariance matrix computed using 
second dérivatives » signifie que la matrice de 
variance-covariance asymptotique a été estimée 
à partir de la hessienne, c’est-à-dire à partir des 
dérivées secondes de la log-vraisemblance (équa¬ 
tion (10.183)). 

Une fois que l’on a estimé la matrice d’informa¬ 
tion de Fisher, il suffit de l’inverser pour obtenir 
un estimateur de la matrice de variance-covariance 
asymptotique : 

y aS y^)=X,'( 80 ) (10.184) 

Les écarts-types correspondent alors à la racine 
carrée des éléments de la diagonale de cette ma¬ 
trice : 


y aS y(8) = 



(10.185) 


Exemple 

Soit un «-échantillon de variables continues, positives et i.i.d. (D\,...,D n ) admettant une dis¬ 
tribution exponentielle &xp ( 1/(9) de densité égale à : 

f Di (d i -,8)=- e tx p(-f). V4eR + (10.186) 

n 

Cette fonction satisfait les hypothèses de régularité. On note 8 = n ^ D, l’estimateur 

»=1 

du maximum de vraisemblance. Déterminons la loi asymptotique de cet estimateur. Soit (9 0 la 
vraie valeur du paramètre. Nous avons vu que dans ce cas, la quantité d’information de Fisher 
moyenne et la quantité d’information de Fisher associée à l’échantillon sont respectivement 
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définies par : 


T m - -j- I„ (0q) - — 
"o 


(10.187) 


Puisque le problème est régulier, l’estimateur 0 est asymptotiquement normalement distri¬ 
bué : 

Vn(Ô- flb) AT(0,r 1 <flb)) (10.188) 

soit dans notre cas : 

V«(ê-flb)-^Af(0 t flg) (10.189) 

Ce résultat implique que pour une taille d’échantillon n suffisamment importante, mais finie 
(► chapitre 9) : 


9 “x N 


K) 


La variance asymptotique de 0 est égale à : 

V aJ , (fl) = = 1“' (do) 

L’estimateur est asymptotiquement efficace. 


(10.190) 


(10.191) 


Les points clés 

Dans le cas discret, la fonction de vraisemblance d’un échantillon correspond à la 
probabilité jointe d’observation d’un échantillon (réalisation). 


Dans le cas continu, la fonction de vraisemblance d’un échantillon correspond à 
la densité jointe des variables de l’échantillon. 


L’estimateur du maximum de vraisemblance est la quantité qui maximise la log- 
vraisemblance. 


Sous les hypothèses de régularité, l’estimateur du maximum de vraisemblance est 
convergent, efficace et asymptotiquement normalement distribué. 
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3 questions à 

Alina Catargiu 

Chef de Projet Risque, Crédit 
Agricole Consumer Finance 



Quel est votre parcours professionnel et votre mission 
actuelle chez Crédit Agricole Consumer Finance ? 

À l'issue de mon master d'Économétrie et de Statistique 
appliquée à l'Université d'Orléans et de mon stage chez 
Sofinco, j'ai été embauchée en 2010 chez Crédit Agricole 
Consumer Finance. Je travaille actuellement au sein du Pôle 
Prévention du Risque et Innovation qui est rattaché à la 
direction Crédit France. La mission principale de ce pôle est 
d'assurer la maîtrise du risque au regard des objectifs fixés 
par la direction générale, en définissant et en mettant en 
œuvre les politiques d'acceptation des crédits et de gestion 
de la fraude. Mon métier se concentre autour du 
développement d'outils de sélection du risque (scores, règles 
d'acceptation), de la recherche méthodologique et de la 
création d'outils génériques de suivi des scores. Je participe 
également au contrôle de la qualité des scores et des études 
réalisés au sein de mon équipe. 

Dans le cadre de votre activité, utilisez-vous la méthode 
d'estimation du maximum de vraisemblance ? 

Chez Crédit Agricole Consumer Finance, l'objectif principal 
des modèles statistiques est de détecter les groupes 
d'individus à risque lors de la souscription d'un crédit. Nous 
travaillons essentiellement avec des modèles de scoring, 
c'est-à-dire des modèles statistiques qui permettent 
d'attribuer un score reflétant le risque associé à un client ou 
à un client potentiel en fonction de ses caractéristiques 
individuelles. Le modèle de scoring le plus utilisé est le 
modèle de régression logistique ou modèle logit. Le logit 
permet d'estimer la probabilité conditionnelle de défaut en 
fonction des caractéristiques individuelles du client. Chacune 
de ces caractéristiques est associée à un paramètre à estimer 
par la méthode du maximum de vraisemblance. 

Est-ce que cette méthode d'estimation est programmée 
dans les logiciels professionnels que vous utilisez chez 
Crédit Agricole Consumer Finance ? 

Tous nos travaux de modélisation statistique sont réalisés 
sous SAS. L'estimation des paramètres d'une régression 
logistique se fait via la procédure LOGISTIC qui utilise comme 
méthode d'estimation le maximum de vraisemblance. Dans 
le cadre d'un modèle logit, il n'y a pas de solution analytique 
pour définir l'estimateur du maximum de vraisemblance. Le 
logiciel utilise donc une méthode d'optimisation numérique 
(méthode du score de Fisher ou méthode de 
Newton-Raphson). ■ 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquez si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Vraisemblance et log-vraisemblance 

a. La log-vraisemblance d’un échantillon est égale au 
logarithme de la vraisemblance de l’échantillon. 

b. Pour une variable continue, la vraisemblance d’un 
échantillon correspond à la probabilité jointe d’ap¬ 
parition d’un échantillon. 

c. La log-vraisemblance d’un échantillon est égale au 
produit des vraisemblances individuelles associées à 
chaque observation de cet échantillon. 

d. La log-vraisemblance d’un échantillon est une va¬ 
riable aléatoire. 

e. La vraisemblance d’un échantillon dépend de deux 
arguments : le vecteur de paramètres et les données 
de l’échantillon. 

Estimateur du maximum de vraisemblance 

a. L’estimateur du maximum de vraisemblance est une 
constante. 

b. L’estimateur du maximum de vraisemblance est une 
fonction des variables aléatoires de l’échantillon. 

c. L’estimateur du maximum de vraisemblance est la 
solution du programme de maximisation de la log- 
vraisemblance. 

d. Le gradient de l’échantillon, évalué au point de la 
réalisation de l’estimateur du maximum de vraisem¬ 
blance, est égal à zéro. 

e. Si l’on souhaite estimer trois paramètres, la hes¬ 
sienne associée à l’échantillon est un vecteur de di¬ 
mension 3x1. 

Score, hessienne et information de Fisher 

a. Le gradient est une réalisation du score. 


b. L’espérance du score est nulle. 

c. L’information de Fisher associée à l’échantillon est 
égale à la variance du score de l'échantillon. 

d. L’information de Fisher moyenne est égale à l’infor¬ 
mation de Fisher de l’échantillon divisée par la taille 
de celui-ci. 

e. L’information de Fisher moyenne correspond à l’in¬ 
formation de Fisher associée à une observation de 
l’échantillon. 

Propriétés de l’estimateur du maximum de vrai¬ 
semblance 

a. L’estimateur du maximum de vraisemblance est tou¬ 
jours sans biais. 

b. Sous les hypothèses de régularité usuelles, l’estima¬ 
teur du maximum de vraisemblance est convergent 
au sens fort. 

c. Sous les hypothèses de régularité, l’estimateur du 
maximum de vraisemblance est asymptotiquement 
normalement distribué. 

d. Sous les hypothèses de régularité, l’estimateur du 
maximum de vraisemblance a une variance asymp¬ 
totique inférieure (dans le cas scalaire) à la borne 
FDCR. 

e. La variance asymptotique de l’estimateur du maxi¬ 
mum de vraisemblance est égale à la matrice d’in¬ 
formation de Fisher associée à l’échantillon. 


Sujets d'examen 

Maximum de vraisemblance (HEC Lausanne, 
2014) 

On considère un «-échantillon (X],...,X n ) de variables 
aléatoires réelles, continues et i.i.d. de même loi que X. 
On suppose que X a une distribution log-normale de pa¬ 
ramètres p etc 2 : 

x‘-~ \n N[p,(T 2 ) (10.192) 
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De façon équivalente, la variable ln(X) admet une dis¬ 
tribution normale : 

\n(X) u ~ ' N {/J,a 2 ) (10.193) 

La fonction de densité de la variable X est donnée par : 

1 / (lnx-/r) 2 ' 


fx (x;/i,<r 2 ) = - — exp 


Vxe : 


xcr A Jln ' \ 2tr 2 

(10.194) 

On suppose que le paramètre n est connu et l’on cherche 
à estimer le paramètre o 2 . Pour simplifier les calculs, on 
pourra poser 8 = a 2 . 

1. Déterminer la log-vraisemblance associée à la réali¬ 
sation de l’échantillon (x\,...,x n ). 

2 . Déterminer l’estimateur <r 2 du maximum de vrai¬ 
semblance du paramètre a 2 . 

3 . Montrer que l’estimateur cr 2 est sans biais. 

4 . Montrer que l’estimateur cr 2 est convergent (au sens 
faible). 

5 . Déterminer le score associé à l’échantillon. Montrer 
que son espérance est nulle pour toute valeur de cr 2 . 

6 . Déterminer la quantité d’information de Fisher asso¬ 
ciée à l’échantillon et la quantité moyenne d’infor¬ 
mation de Fisher. 

7 . Déterminer la loi asymptotique de l’estimateur cr 2 . 

8 . Montrer que l’estimateur cr 2 est efficace au sens de 
la borne FDCR. 

9 . Proposer un estimateur convergent de la variance 
asymptotique de cr 2 . 

Maximum de vraisemblance (Université 
d’Orléans, 2012) 

Soit X une variable aléatoire continue positive distri¬ 
buée selon une loi Gamma de paramètres a et y3, notée 
f (a,P), admettant pour fonction de densité : 

exp(-j) 


fx (x; a,p) = 


r (a) p 11 

où r (a) désigne la fonction Gamma, avec 

/s+co 

r(a)= I exp (-t)dl 
J o 

On admet que 

E (X) = ap, V (X) = ap 1 


Vx £ [0, + oo[ (10.195) 


(10.196) 


(10.197) 




On suppose que le paramètre a est connu et que le pa¬ 
ramètre P est inconnu avec cr > 0 et p > 0. On sou¬ 
haite estimer le paramètre p par la méthode du maximum 
de vraisemblance à partir d’un «-échantillon (X| ,...,X„) 
i.i.d. de même loi que X. 

1. Déterminer la log-vraisemblance associée à la réali¬ 
sation de l’échantillon (x\ ,...,x n ). 

2 . Montrer que le gradient g„ (p; x) et la hessienne 
H„ (P,x) associés à cette vraisemblance s’écrivent : 

1 n na 

g„(p-x) = -^x i -j (10.198) 

2 n 

H n (p-,x) = -~Y, x i+-^ (10.199) 

3 . Déterminer le score associé à l’échantillon. Montrer 
que son espérance est nulle pour toute valeur de p. 

4 . Déterminer l’estimateur p du maximum de vraisem¬ 
blance du paramètre y3. 

5 . Montrer que l’estimateur du maximum de vraisem¬ 
blance p est sans biais. 

6 . Montrer que l’estimateur yS est convergent. 

7 . L’estimateur du maximum de vraisemblance yS est-il 
efficace au sens de la borne FDCR ? 

8 . En utilisant le théorème central limite déterminer la 

n 

loi asymptotique de la quantité u -1 ^ X, . En déduire 

i=i 

la loi asymptotique de l’estimateur/?. 

9 . Retrouver la loi asymptotique de l’estimateur p de la 
question 8 en utilisant les propriétés asymptotiques 
du maximum de vraisemblance. 

10 . On considère un échantillon de taille n = 10 de va¬ 
riables Xi,...,X„ distribuées selon une loi r(2,/3), 
pour lequel on observe les réalisations suivantes : 


Xi 

*2 

*3 

*4 

x 5 

x 6 

x 7 

x 8 

x 9 

Xio 

3,5 

5,2 

2,1 

6,3 

4,7 

3,5 

3,0 

4,9 

2,1 

4,7 


Proposer une estimation ponctuelle du paramètre p. 
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Chapitre 




S elon une légende du marketing, la chaîne de 
distribution américaine Wall-Mart aurait mis 
en place dans les années 1980 une réorgani¬ 
sation de ses rayons visant à présenter côte à côte 
les couches pour bébés et les packs de bières. Cette 
réorganisation aurait fait suite à un constat simple : 
l’examen de millions de tickets de caisse montre¬ 
rait que les ventes des deux produits sont statistique¬ 
ment liées. Au-delà de la légende, comment parvenir 
à une telle conclusion ? On formalise généralement 


ce type de problème sous la forme d’un test statis¬ 
tique : on teste une hypothèse dite nulle (les ventes 
ne sont pas liées par exemple) et l’on construit une 
région critique. Une région critique est une règle de 
décision concernant le rejet ou le non-rejet de l'hy¬ 
pothèse nulle. L’avantage d’une telle démarche est 
qu’elle permet de contrôler les risques associés à la 
décision. C’est pourquoi les tests statistiques sont 
aujourd’hui si souvent employés dans de très nom¬ 
breux domaines d’activité économique. 



LES GRANDS 

AUTEURS 


Jerzy Neyman (1894-1981) 

Jerzy Neyman est considéré comme l'un des grands fondateurs de la théorie statis¬ 
tique moderne, avec notamment Karl Pearson (1857-1936) dont il fut l'étudiant. Ses 
travaux ont largement contribué à la théorie moderne des probabilités et à la théorie 
des tests. 

Il étudie en Pologne, puis à Londres où il travaille avec Egon Sharpe Pearson, le fils 
de Karl Pearson. Ensemble, ils développent en 1928 le test dit du rapport de vraisem¬ 
blance. 

Mais c'est en 1933 qu'ils apportent la démonstration que ce test est le plus puissant 
grâce au fameux lemme de Neyman-Pearson que nous étudierons dans ce cha¬ 
pitre. Jerzy Neyman émigre aux Etats-Unis en 1937. Il fonde alors le département de 
statistiques de la prestigieuse université de Berkeley en Californie. ■ 
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■ Théorie 

■ des tests 


pian 

Cl Définitions . 328 

Fl Règle de décision et puissance d'un test . 336 

H Tests paramétriques. 348 

Fl Tests d'indépendance et d'adéquation . 354 


Pré-requis 

Connaître les différentes notions de convergence (► chapitre 8). 

-» Connaître la notion d'estimateur (► chapitre 9). 

Objectifs 

Comprendre les notions d'hypothèses nulle et alternative. 
Comprendre les notions de statistique de test et de valeur critique. 
Comprendre les notions de niveau et de puissance d'un test. 
Construire la région critique d'un test. 

Apprendre à conclure quant au rejet de l'hypothèse nulle. 
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L a théorie des tests (ou inférence) étudie la construction et les propriétés des tests 
statistiques. Un test statistique est une règle de décision permettant de rejeter 
ou de ne pas rejeter une hypothèse, appelée hypothèse nulle, en fonction des 
observations d’un échantillon. La théorie des tests est la théorie fondamentale de ce 
que l’on appelle aujourd’hui la statistique décisionnelle ou business intelligence , et 
de ce que l’on appelait autrefois la statistique mathématique. Elle est le fondement 
de tous les outils statistiques modernes d’aide à la décision. Au-delà de la règle de 
décision, le principal avantage d’un test statistique est qu’il permet de mesurer ou de 
contrôler les risques associés à cette décision. C’est pourquoi ces tests sont très utilisés 
en pratique. 

De nos jours, les applications des tests statistiques en économie et en gestion sont 
omniprésentes dans notre vie quotidienne et dans la vie des entreprises. Par exemple, 
lorsque vous sollicitez un prêt à la consommation ou un prêt immobilier auprès d’une 
banque, celle-ci cherche à déterminer si vous êtes un bon client, c’est-à-dire si vous 
serez apte à rembourser le capital et les intérêts dans le futur. Bien évidemment, rien 
n’indique a priori que vous soyez un client à risque ou non. 

Une façon formelle de répondre à cette question consiste à tester l'hypothèse nulle 
selon laquelle vous êtes un bon client, et à définir une règle de décision du type re¬ 
jet (ce qui implique un rejet du prêt) ou non-rejet (ce qui implique une acceptation 
du prêt) de cette hypothèse nulle. C’est le principe général des méthodes de scoring 
appliquées dans le domaine bancaire, de l’assurance, du marketing, de la détection 
des fraudes sur internet, etc. Un autre exemple est celui d’une entreprise qui souhaite 
analyser l’impact d’une campagne marketing à partir d’un échantillon des ventes. Elle 
formalise ce problème sous la forme d’une hypothèse nulle (la campagne n’a pas eu 
d’impact), et construit une règle de décision à partir de l’échantillon permettant de 
conclure quant au rejet ou non de cette hypothèse. Une autre application, très utilisée 
en marketing, est celle des tests d’indépendance, grâce auxquels il est possible de tes¬ 
ter si les ventes de deux produits sont liées ou si au contraire elles sont indépendantes 
(hypothèse nulle). 

il Définitions 


Définition 11.1 

Un test statistique (ou test) est une règle de décision relative à une hypothèse 
sur la distribution d’une variable d’intérêt dans la population, qui se fonde sur les 
observations d’un échantillon. 


Dans la vie quotidienne, il est généralement relativement facile de se fixer soi-même, 
ou de se voir conseiller, une règle de décision. Par exemple, si l’hypothèse considérée 
est celle de la pertinence d’un investissement dans un titre financier, votre conseiller 
financier peut vous proposer une règle de décision du type : « Achetez si le prix de ce 
titre descend en dessous de 10 euros ». Le problème avec ce type de règle heuristique, 
c’est que l’on ne contrôle pas les risques associés à la décision. Le fameux adage 
les « conseilleurs ne sont pas les payeurs » rend bien compte de cette déconnection 


328 




Chapitre 11 Théorie des tests 


qui apparaît parfois entre la règle de décision et le risque encouru. C’est la principale 
différence avec une règle de décision statistique : un test statistique est une procédure 
qui permet de contrôler ou de minimiser, suivant les cas, les risques associés à la 
décision. C’est pourquoi, un test statistique est toujours associé à trois éléments : 

1. Une hypothèse nulle et une hypothèse alternative. 

2. Une région critique fondée sur une statistique de test et une valeur critique. 

3. Des risques de première espèce et de seconde espèce. 

Nous allons désormais présenter ces différents éléments. 


1.1 


Hypothèses nulle et alternative 


Un test, en tant que règle de décision, se réfère toujours à une hypothèse de référence, 
dite hypothèse nulle. 


Une hypothèse est une assertion concernant la population. Un test statistique per¬ 
met de tester la validité d’une hypothèse de référence (ou de base), dite hypothèse 
nulle, contre une hypothèse alternative. Ces hypothèses sont respectivement no¬ 
tées Ho et H i. 
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Considérons l’exemple d’un test concernant l’effet d’un traitement médical. Dans ce 
cas, on peut construire un test de l’hypothèse nulle Ho : « le traitement n’a pas d’effet » 
contre une hypothèse alternative H] : « le traitement a un effet ». Mais on peut aussi 
tester l’inverse, c’est-à-dire Ho : « le traitement a un effet » contre H] : « le traitement 
n’a pas d’effet ». De façon générale, comment choisir l’hypothèse nulle ? 

Dans la vie économique, on utilise de nombreux tests statistiques. Pour ces tests, il 
est généralement possible de calculer les coûts associés au renoncement de l’une ou 
l’autre des deux hypothèses. La règle est que Y hypothèse nulle est celle dont le coût 
d’une erreur associée est le plus important. Par exemple, dans le cadre d’un problème 
de seoring on cherche à tester si le client présente un risque (risque de défaut, risque de 
désabonnement, risque de ne pas acheter le produit, etc.) ou si, au contraire, le client 
n’est pas risqué. Contrairement à une intuition première, le coût associé à une erreur de 
décision sur l’hypothèse « le client est risqué » est généralement plus faible que le coût 
associé à une erreur sur l’hypothèse « le client n’est pas risqué». Prenons l’exemple 
d’un seoring bancaire relatif à l’attribution d’un prêt immobilier de 200 000 euros sur 
20 ans. Si l’on juge que le client est risqué alors qu’il ne l’est pas, la banque ne lui 
attribue pas le prêt. La banque perd alors l’intégralité des intérêts, soit suivant le taux 
d’intérêt, environ 100 000 à 150 000 euros. Si au contraire le client est jugé non risqué 
alors qu’il l’est réellement, la banque lui attribue le prêt et observera sans doute un 
défaut (partiel ou total) de remboursement dans les années à venir. Mais si ce défaut 
intervient dans 20 ans, la banque ne perd rien, le capital ayant été remboursé et les 
intérêts payés. Si ce défaut intervient plus tôt, la banque enregistre des pertes. 

Même dans le cas le plus défavorable d’un défaut total intervenant le lendemain de 
la signature du prêt, ce coût est largement inférieur à celui du premier type de risque. 
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En effet, dans ce cas la banque saisit le bien immobilier et le revend immédiatement 
avec une décote et des frais annexes. Ainsi, ses pertes peuvent être limitées à quelques 
dizaines de milliers d'euros. Par conséquent, le coût associé à une erreur de décision 
sur l’hypothèse « le client n’est pas risqué » est le plus élevé : c’est cette hypothèse 
qui sera choisie comme hypothèse nulle. 

On distingue deux grandes familles de tests statistiques : 

1. Les tests paramétriques : ces tests portent sur la valeur d’un ou de plusieurs para¬ 
mètres de la distribution dans la population d’une variable d’intérêt. 

2. Les tests non-paramétriques : ces tests portent sur la distribution, les mo¬ 
ments (espérance, variance, etc.) ou certaines caractéristiques (P indépendance par 
exemple) d’une ou de plusieurs variables aléatoires. 

Dans ce chapitre nous étudierons tout d’abord les tests paramétriques (► section 3) 
avant de présenter quelques exemples de tests non-paramétriques (► section 4). 

Dans le cas des tests paramétriques, l’hypothèse nulle et l’hypothèse alternative 
portent sur la valeur d’un paramètre 0 (ou de plusieurs paramètres) de la distribu¬ 
tion d’une variable aléatoire (discrète ou continue) X définie sur un univers probabilisé 
(X (Q) ,T, Pr) et admettant une fonction de densité ou une fonction de masse fx (x; 6). 

Exemple 

On admet qu’une variable aléatoire discrète X, définie sur X (Q) = N, suit une loi de Poisson 
de paramètre 9, où 9 est un paramètre réel positif inconnu, telle que : 

QX 

fx (x; 9) - Pr (X = x) = exp (-6) — Vx e N (11.1) 

x\ 

On cherche à tester l’hypothèse nulle H 0 : 0 = 2 contre une hypothèse alternative H] : 9 = 3. 

Parmi les tests paramétriques, on distingue les tests d’hypothèses simples et les tests 
d’hypothèses composites. 

QfilimiifilllLâ 

Une hypothèse simple caractérise complètement la distribution de la variable 
d’intérêt. Une hypothèse composite ne permet pas de caractériser la distribution 
de la variable d’intérêt. 

Exemple 

Considérons une variable aléatoire X distribuée selon une loi de Student t (9) où 9 > 0 est un 
paramètre inconnu. L’hypothèse nulle H 0 : 0 = 2 est une hypothèse simple, car sous H 0 on 
connaît exactement la loi de la variable X, i.e. X ~ 1 (2). Les hypothèses nulles H 0 : 8 > 2, 
Ho : 6 < 2 ou Ho : 9 î 2 sont des hypothèses composites. En effet, on ne sait pas quelle est la 
loi exacte de X sous H 0 . Pour H 0 : 9 > 2, cette distribution peut être, par exemple, X ~ t (3), 
X~/(10) ou X ~ f (100). 

Remarque : On peut construire des tests d’une hypothèse simple contre une hypothèse 
simple. Par exemple, Ho : 0 = 6o contre H| : 8 = 9 \. On peut construire différents tests 
d'une hypothèse simple contre une hypothèse composite. Par exemple, Ho : 9 = Go 
contre H[ : 6 ± Go. On peut aussi construire, même si c’est plus rare, des tests d’une 
hypothèse composite contre une hypothèse simple ou une hypothèse composite, du 
type Ho : 0 < do contre H| : 6 = 6\ ou Ho : 6 < Oo contre Hj : 6 > 9o. 
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Parmi les tests d’une hypothèse simple contre une hypothèse composite, on distingue 
les tests unilatéraux des tests bilatéraux. Cette distinction sera particulièrement im¬ 
portante pour la définition de la région critique. Le terme unilatéral renvoie au fait que 
sous H], la valeur du paramètre 0 ne peut être que supérieure (ou inférieure suivant le 
test) à la valeur de 0 sous l’hypothèse nulle Ho : la valeur de 0 ne prend qu’une seule 
« direction ». Le terme bilatéral signifie, qu’au contraire, la valeur de 0 sous l’hypo¬ 
thèse alternative est différente (inférieure ou supérieure) de la valeur sous l’hypothèse 
nulle. 

Un test unilatéral gauche est un test de la forme Ho : 0 = do contre H| : 0 < 0 o. 

Un test unilatéral droit est un test de la forme Ho : 0 = 0o contre H| : 0 > 0q. 

Définition 11.5 

Un test bilatéral est un test de la forme Ho : 0 = 0q contre H) : 0 ï 0 q. 


Enfin, signalons que lorsqu’un test porte sur plusieurs paramètres, on parle de test 
d’hypothèses jointes ou de test joint. 

Définition 11.6 

Un test d’hypothèses jointes (ou test joint) est un test dont l’hypothèse nulle 
porte sur plusieurs paramètres 0 ]A de la distribution de la variable d’intérêt. 

Ho : 0\ = a i et 02 = ai et... et 0k = a* (11.2) 

Par exemple, si la variable d’intérêt X vérifie X ~ N [tn .o -2 ), on peut construire un 
test joint de la forme Ho : m = /«o et cr 1 2 = <r ( 2 . L’hypothèse alternative peut s’écrire 
sous la forme H] : m + mo et cr + o\ ou sous la forme H| : m ± mo ou cr 2 + cr 2 ). 
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1.2 


Région critique 


Supposons que l'on dispose d’un «-échantillon (X\,...,X n ) de variables i.i.d. de même 
loi que la variable X. Comment tester, à partir de cet échantillon, l’hypothèse nulle 
d’un test paramétrique portant sur la valeur d’un paramètre 0 de sa distribution dans la 
population ? Pour ce faire, nous allons construire une région critique à partir de deux 
éléments : une statistique de test et une valeur critique. Commençons par définir la 
notion de statistique de test. 

Définition 11.7 

Une statistique de test, notée T n , est une variable aléatoire définie comme une 
fonction des variables de l’échantillon X\ ,...,X n : 

T n {X\,...,X n ) (11.3) 


1 Nous avons déjà défini la notion de statistique descriptive dans le chapitre 1 et dans le chapitre 9, 

consacré à l'estimation. La définition d'une statistique de test est similaire. 
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Remarque : En général, mais pas toujours, la statistique de test correspond à un esti¬ 
mateur 9 du paramètre 9 ou à une variable transformée de cet estimateur. 

Une statistique de test étant une variable aléatoire, on peut en caractériser la distri¬ 
bution (ou distribution d’échantillonnage). Comme pour un estimateur, on distingue 
la loi exacte d’une statistique de test, valable pour toute valeur de n (cette loi exacte 
est généralement difficile à dériver sauf dans des cas simples), de la loi asymptotique, 
valable pour une taille d’échantillon n suffisamment grande, mais finie. 

T n (X\,...,X n ) ~ loi exacte Vu e N (11.4) 

asy 

T n (X\,...,X n ) » loi asymptotique (11.5) 

La région critique correspond à la règle de décision du test statistique. Cette règle est 
extrêmement simple : si la réalisation de la statistique de test, obtenue à partir des 
observations (x\,...,x n ) appartient à la région critique, on rejette l’hypothèse nulle H 0 . 
La région critique est un ensemble délimité par une ou des valeurs critiques, suivant 
les cas. 

IMiaiîiÆQJLLg 

La région critique d’un test, notée W, est un ensemble de réalisations de la statis¬ 
tique de test (ou de façon équivalente un ensemble d’échantillons) pour lesquelles 
l’hypothèse nulle du test est rejetée : 

W = .. . . : T„(xi,...,x n ) e r (c)} (11.6) 

où (x],...,x n ) désigne un échantillon, T n (x\,...,x n ) la réalisation associée de la 
statistique de test, et r (c) un ensemble délimité par une (ou plusieurs) valeur(s) 
critique(s), notée(s) c. 

Exemple 

Voici quelques exemples de formes de régions critiques usuelles : 

W = {x,. x„ : . . ,x„) > c} (11.7) 

W = (x,. x n : ci < T n (x < c 2 } (11.8) 

W = (xi. x„ : \T„(x\,...,x n )\ > c] (11.9) 

où c, ci et c '2 sont des valeurs critiques, généralement déterminées à partir de tables statis¬ 
tiques (► chapitre 7). 


Remarque : Par souci de simplicité dans les notations, nous noterons la région critique 
sous la forme W= {x : T n (x) e C(c)}, où x en minuscule renvoie à la réalisation du 
«-échantillon (xi,...,x„). 

Ainsi, la procédure d’un test est la suivante : on calcule la réalisation de la statistique 
de test à partir de l’échantillon d'observations. Si cette réalisation appartient à la région 
critique, on rejette l’hypothèse nulle Ho. Par conséquent, un test statistique est une 
règle de décision qui spécifie : 

- l’ensemble des échantillons pour lesquels on rejette Ho ; 

- l’ensemble des échantillons pour lesquels on ne peut pas rejeter Hq. 
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Remarque : La seule conclusion que l’on peut tirer d’un test, c’est celle du rejet ou 
du non-rejet de l’hypothèse nulle Ho- On ne doit jamais tirer d’un test des conclusions 
du type « on accepte Hq », « on accepte Hi », « on rejette Hi », etc. 

Définition 11.9 

La région complémentaire de la région critique est appelée région de non-rejet 
de l’hypothèse nulle Hq, notée W, telle que : 

w = (x: r„(jc)é r(c)} (îi.io) 

Si la réalisation de la statistique de test appartient à la zone de non-rejet, on conclut 
au non-rejet de l’hypothèse nulle Ho. 
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1.3 


Risques 


Lorsque l’on considère un test statistique, on ne peut prendre que l’une ou l’autre 
des deux décisions suivantes : soit on rejette l’hypothèse nulle Ho, soit on ne rejette 
pas l’hypothèse nulle Ho- L’avantage principal d’un test statistique par rapport à une 
règle de décision heuristique (une décision au hasard par exemple), est qu’il permet 
de contrôler les risques associés à la décision. 

Quels sont ces risques? Comme l’indique le tableau 11.1, on distingue deux types 
de risque : le risque de première espèce et le risque de deuxième espèce. Dans ce 
tableau, on croise la décision (rejet ou non-rejet de Ho) et la validité de Hq ou de Hi 
dans la population. Ainsi, si l’on rejette Ho alors que Hj est vraie ou si l’on ne rejette 
pas Ho alors que Ho est vraie, on ne commet pas d’erreur. En revanche, si l’on rejette 
Ho alors que Ho est vraie, on commet une erreur dite de type I ou de première espèce. 
Si on ne rejette pas Ho alors que H| est vraie, on commet une erreur dite de type TT ou 
de deuxième espèce. 


▼ Tableau 11.1 Risque I et risque II 



Décision 

Non-rejet de H 0 Rejet de H 0 

Population H 0 vraie 

Hi vraie 

Décision correcte Erreur de type 1 

Erreur de type II Décision correcte 


Définition 11,10 

Le risque I ou risque de première espèce, correspond au risque de rejeter l’hy¬ 
pothèse nulle Ho alors qu’elle est effectivement vraie dans la population. 

J&finiiloD-UJJ. 

Le risque TT ou risque de seconde espèce correspond au risque de ne pas reje¬ 
ter l’hypothèse nulle Ho alors que l’hypothèse alternative Hi est valide dans la 
population. 
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Pour une règle de décision donnée, c’est-à-dire pour une région critique W, on cherche 
à quantifier les probabilités associées à ces deux types de risque. 

Définition 11.12 

Le niveau (ou la taille) d’un test correspond à la probabilité associée au risque de 
première espèce. Par convention, cette probabilité est notée a : 

a = Pr(W|H 0 ) (11.11) 

où W désigne la région critique du test. 


Ainsi, le niveau correspond à la probabilité de rejeter Ho, c’est-à-dire d’être dans la 
région critique W, sachant que l’hypothèse nulle H () est vraie dans la population. C’est 
donc la probabilité de rejeter à tort l’hypothèse nulle Ho. Bien évidemment, plus le 
niveau d’un test est faible, plus la probabilité d’erreur de première espèce est faible et 
mieux c’est. Le symbole |H 0 signifie « sachant que Ho est vraie ». 

Remarque : Pour un test d’hypothèse nulle composite, le niveau du test devient : 
a= sup Pr(W|H 0 ). 

0o e Ho 

De façon similaire, nous pouvons définir la probabilité associée au risque de deuxième 
espèce et la puissance d’un test, définie comme le complémentaire de cette probabilité. 


OfiflnilionJUi 

La puissance d’un test correspond à la probabilité de rejet de l’hypothèse nulle 
Ho alors que l’hypothèse alternative H] est vraie : 

Puissance = Pr(W|H,) = 1 -fi (11.12) 

où (5 correspond à la probabilité de Terreur de deuxième espèce, i.e. fi = 


Pr 


(w|h,) 


et où W désigne la région de non-rejet. 


La puissance correspond à la probabilité d’être dans la région critique (et donc de reje¬ 
ter l’hypothèse nulle) alors que l’hypothèse alternative H| est vraie dans la population. 
Par conséquent, plus un test est puissant, plus la probabilité d’erreur de deuxième es¬ 
pèce est faible et mieux c’est. 

ProMéié 

Détermination du niveau et de la puissance 

Afin de caractériser le niveau d’un test, on doit utiliser la distribution de la statistique 
de test T n (X) sous l’hypothèse nulle H 0 . Il peut s’agir soit de la loi exacte, soit de 
la loi asymptotique : 

T n (X) ~ D ou T n (X) D (11.13) 

Ho Ho 

Afin de caractériser la probabilité de risque II, fi, ou la puissance, on doit utiliser la 
distribution de la statistique de test T n (X) sous l’hypothèse alternative H| : 

T n (X) ~ D ou T„ (X) D (11.14) 

H, H, 
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Appliquons ces définitions dans le cadre d’un exemple. 

Exemple 

On considère un «-échantillon avec n = 100, de variables aléatoires i.i.d. telles 

que X, ~ N ( in,cr 2 ) où m est un paramètre inconnu et cr 2 = 1. On souhaite tester : 

Ho : m = mo = 1,2 contre H| : rn = m\ = 1 (11.15) 

Un économètre vous propose une région critique de la forme : 

W = {x:x„<c} (11.16) 

n 

où x„ désigne la réalisation de la moyenne empirique X„ = n~' X, et c est une constante 

(=i 

(valeur critique) égale à 1,0718. Cette région critique s’interprète de la façon suivante : si la 
réalisation de la moyenne empirique est inférieure à 1,0718, on rejette l’hypothèse nulle Ho : 
m = 1,2. Calculons la taille et la puissance de ce test. Sous l’hypothèse nulle Ho : m = m t] , 
la loi exacte de la moyenne empirique X„ (statistique de test) est (► chapitre 9) : 

X„ - m 0 


x - S N 




cr/ s/n H o 

Par conséquent, la taille du test est égale à : 

a = Pr(W|Ho) = Pr(X„ <c|Ho) 

mo 


-ph 


cri s/n ir/ s/n 
c — /«o 


Af (0,1) (11.17) 

(11.18) 

H 0 (11-19) 

où </>(.) désigne la fonction de répartition de la loi normale centrée réduite. D’après les don¬ 
nées de l’énoncé, la taille du test est égale à : 

/ 1,0718 - 1,2\ 

« = 0 -- ==-— I = 0 (-1,2816) = 0,10 (11.21) 

\ 1/VTÔÔ / 

Ainsi, avec la règle de décision associée à la région critique W= jx : x„ < 1,0718), il y a 
10 % de chances de rejeter à tort l’hypothèse nulle Ho : m = 1,2 alors qu’elle est vraie. Sous 
l’hypothèse alternative, H, : m = m i, la loi exacte de la moyenne empirique X„ (statistique 
de test) est : 

X„ - m, 




7V(0,1 ) 


cr/ s/n H > 

Par conséquent, la puissance du test est égale à : 

Puissance = Pr(W|H,) = Pr(X„ <c[H,) 


= Pr i X " ~ m ' < c ~ m ' 


cr/ s/n cri s/n 
c-mA 
cr/ s/n ) 

La probabilité de risque de deuxième espèce est égale à : 


H, 


= <P 


P = 1 - Puissance =1-0 


( c - m\ 
cr/s/n 


D'où : 


Puissance = 0 ( ' ’° 7 ' | = 0 (0,7184) = 0,7638 

\ 1/VÏÏK) / 

P = 1 - Puissance = I - 0,7638 = 0,2362 


(I 1.22) 

(11.23) 

(11.24) 

(11.25) 

(11.26) 

(11.27) 

(11.28) 
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Par conséquent, avec la région critique W= {x : x n < 1,07181, il y a 23,62 % de chances de 
ne pas rejeter l’hypothèse nulle H 0 : m = 1,2 alors que l’hypothèse alternative H 0 : m = 1 est 
vraie. 



Règle de décision et puissance 
d'un test 


L’objectif de cette section est de présenter la règle de décision d’un test pour un niveau 
de risque de première espèce donné. Nous verrons que cette décision peut aussi être 
prise sur la base de la valeur p ou p-value. Enfin, nous caractériserons la fonction 
puissance d’un test. 


2.1 


Règle de décision 


À partir de ces différents éléments (risque de première espèce et de deuxième espèce, 
région critique, valeur critique et statistique de test), nous pouvons à présent envisager 
la mise en œuvre d’un test statistique. Mais pour cela, nous devons lever un problème 
d’indétermination. Reprenons les résultats de l’exemple précédent portant sur le test 
de l’espérance d’un échantillon de variables normales. Nous avions obtenu des proba¬ 
bilités de risque I et de risque II, respectivement égales à : 


a = 0 


m {) 


a-/ y» 


(3 = 1 -0 


c - m\ 


(T, 


■/■y/n 


(1 1.29) 


Les valeurs m o et m\ sont fixées par l’utilisateur (hypothèses du test), ainsi que la taille 
d’échantillon n. On obtient un système à deux équations et trois inconnues : », [3 (ou 
la puissance) et la valeur critique c. Le système est donc indéterminé. 


Propriété 

Arbitrage risque l/risque II 

De façon générale, il existe un arbitrage entre le risque de première espèce et le 
risque de deuxième espèce. 


Illustrons cet arbitrage entre le risque de première espèce et le risque de deuxième 
espèce en fonction de la valeur critique c, par un exemple numérique. 

Exemple 

On considère un «-échantillon (X lt ...,X n ) de variables aléatoires i.i.d. telles que X, ~ 
N [in,cr 2 ) où le paramètre m est inconnu. On suppose que n = 100 et cr 2 = 1, et l’on souhaite 
tester : 

Ho : m = trio = 1,2 contre Hi : m ■= m\ = \ ( 11.30) 

On admet que la région critique du test est de la forme : 

W = {x:x„<c} (11.31) 

où la statistique de test X„ (moyenne empirique) vérifie : 

X„ ~ N(w 0) —], X„~nL,,— ) (11.32) 

n 0 \ n ) H ' \ n I 
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Sous ces hypothèses, les probabilités de risque I et de risque II peuvent s’exprimer en fonction 
de la valeur critique c comme suit : 

a = Pr( W|Ho) = 0| — ^ | = 0(10 x (c - 1,2)) (11.33) 

\ o"/ yn ) 

/? = Pr(w|H,) = 1 - 0| —= 1 - 0(lOx(c- 1)) (11.34) 

V 1 ! \ o-/yn ) 

où 0 (. ) désigne la fonction de répartition de la loi normale centrée réduite. 

Puisque les fonctions de répartition sont toujours des fonctions strictement croissantes, le 
niveau a est une fonction croissante de la valeur critique c, tandis que la probabilité de risque 
de deuxième espèce (i est une fonction décroissante de c. Sur la figure 11.1 sont représentées 
les probabilités a et y3 en fonction de la valeur critique c. On vérifie que lorsque fi augmente, 
a diminue et vice et versa. Cela confirme l’arbitrage entre le risque de première espèce et le 
risque de deuxième espèce. 



▲ Figure 11.1 Arbitrage entre risque I et risque II 
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Par convention, la solution pour résoudre cet arbitrage consiste à fixer la probabilité 
du risque de première espèce o. 

Propriété 

Niveau d'un test 

Dans la pratique, le niveau a (ou la taille ou le seuil de significativité) du test est 
fixé par l’utilisateur. On en déduit la valeur critique du test ainsi que sa puissance 
ou de façon équivalente, la probabilité du risque de deuxième espèce. 

Pourquoi fixer le niveau a et non pas la probabilité fi de risque II (ou la puissance) ? 
C’est ici que la question du choix de l’hypothèse nulle prend toute son importance 
(► section 1 . 1 ). En effet, nous avons vu que l’hypothèse nulle est celle pour laquelle le 
coût d’une erreur associée est le plus élevé. Ainsi, contrôler la probabilité a permet à 
l’utilisateur de contrôler le risque le plus important. C’est pourquoi, dans la pratique, 
on fixe le niveau d’un test à un seuil relativement faible, typiquement a = 5 % ou 
a = 10%. 
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Exemple 

On considère un «-échantillon de variables i.i.d. (X|.X„), avec « = 100, telles que X, ~ 

N (/«,cr 2 ) où m est un paramètre inconnu et cr - 1. On souhaite tester l’hypothèse suivante : 

H u : «î = nio - 1,2 contre Hi : m = m\ = 1 (11.35) 


Un économètre propose une région critique de la fonne : 

W - {x : x„ < c} 


(11.36) 


où x„ est une réalisation de la moyenne empirique X„ = « 1 ^ X, (statistique de test) et c est 

;=i 

une valeur critique. Déterminons cette valeur critique pour un test de niveau a = 5 % ainsi 
que la puissance associée. D’après les résultats de l’exercice précédent, nous savons que : 


a — Pr ( W| H 0 ) = | j 


(11.37) 


Appliquons la fonction de répartition inverse 0 1 (.) aux deux membres de cette égalité afin 
de déterminer la valeur critique c. 


0 (a) = 


c - mg 

cr/ \fn 


(T 


C = m 0 + ^p0 1 (a) 
V« 


Ainsi, nous obtenons 


c= 1,2 + 


1 


X 0~' (0,05) =1,2 + 


1 


VÏÔÔ " VÏÔÔ 

La région critique du test de niveau a = 5 % est définie par : 

W = [x \ x n < 1,0355) 

La puissance du test est égale à : 

f c - ltl\ 


x (-1,6449) = 1,0355 


Puissance = Pr(W|Hi) = 0 


cr / yfn 


W 


Ainsi, nous obtenons 


Puissance = 0 - 


, 2-1 


+ 0 


1 (0,05)J = 0, 


6388 


(11.38) 


( 11.39) 


(11.40) 


(11.41) 


(11.42) 


ll/VÏÏX) 

Avec la région critique W= \x : x n < 1,0355), il y a 63,88 % de chances de rejeter l’hypo¬ 
thèse nulle H 0 : m = 1,2 lorsque l’espérance des variables X, est égale à m = 1 (hypothèse 
alternative). Notons que la puissance peut en outre s’exprimer en fonction de /n 0 et de m \. II 
suffit pour cela de remplacer la valeur critique c par son expression (équation (11.38)) dans 
l’équation (11.41). Ainsi, il vient : 

I /«o - m i 


Puissance = 0 


cr/ yfn 


+ 0 


1 (a)) 


(11.43) 


Illustrons graphiquement ces notions de risque de première espèce et de risque 
deuxième espèce (ou de puissance). Pour ce faire, on considère la distribution de 
la statistique de test, X n , obtenue respectivement sous l’hypothèse nulle Ho et sous 
l’hypothèse alternative H| dans l’exemple précédent. Nous savons que : 


~ N 

Ho 



x„ 


N 



( 11.44) 


Sur la figure 11.2 sont reportées les fonctions de densité de la variable X„ ob¬ 
tenues sous l’hypothèse nulle Hq et sous l’hypothèse alternative H) en fonction 
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des valeurs de x„ : 


Sous Ho : fx n (x„\mo) 


Sous H| : fÿ" (x„; m\ ) 



Vx„ e R 

Vx H c R 


(11.45) 

( 11.46) 


avec Wo = 1,2, m\ = 1, o 2 = 1 et n = 100. Sous ces hypothèses, nous savons que 
la région critique du test de niveau a = 5 % est définie par W= (x : x„ < 1,0355). 
La région critique correspond alors à la partie de l'axe des abscisses (valeurs de x„) 
située à gauche de la valeur critique (représentée par une ligne verticale), c’est-à-dire 
l’ensemble des valeurs x„ telles que x„ < 1,0355. 



0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 

Valeur de la moyenne empirique 
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▲ Figure 11.2 Probabilités de risque I et II 


Comment identifier les probabilités a et /3 sur ce graphique ? Rappelons que la proba¬ 
bilité a associée à l’erreur de type I, i.e. a = Pr ( W| Ho), est définie par la probabilité 
d’être dans la région critique alors que Ho est vraie. Elle correspond donc à l’aire 
sous la densité de X n sous Ho située à gauche de la valeur critique. La probabilité fi 


associée à l’erreur de type II, i.e. fi = Pr 



est définie par la probabilité de 


ne pas rejeter Ho, c’est-à-dire de ne pas être dans la région critique, alors que H] est 
vraie. Par conséquent, la probabilité (5 = 0,3612 correspond à l’aire sous la densité 
de X n sous l'hypothèse Hi située à droite de la valeur critique. La puissance, égale à 

I -fi - 0,6388, correspond à l’aire sous la densité sous Hi située à gauche de la valeur 
critique. 

Nous savons à présent interpréter une région critique et calculer la valeur critique d’un 
test de niveau a. Mais comment conclure quant à la validité de l’hypothèse nulle ? 

II suffit pour cela de vérifier si la réalisation de la statistique de test appartient ou 
n’appartient pas à la région critique. 


Propriété 

Règle de décision 

Si la réalisation de la statistique de test appartient à la région critique, on rejette 
l’hypothèse nulle Hq pour un niveau de risque (ou seuil de significativité) a. Si, 
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au contraire, la réalisation de la statistique de test n’appartient pas à la région cri¬ 
tique, on conclut que l’on ne peut pas rejeter l’hypothèse nulle pour un niveau de 
risque (ou seuil de significativité) a. 


Il est donc essentiel de préciser le niveau de risque associé à la décision : on rejette H () 
au seuil de 5 %, de 10 %, etc., car la conclusion peut en effet être tout autre pour un 
niveau de risque de 15 % par exemple. 

Exemple 

On considère un «-échantillon de variables (À). X n ) i.i.d. telles que X, ~ N (m,cr 2 ) avec 

(T 2 = I et n - 100. On souhaite tester : 

H () : m = m ( ) = 1,2 contre H) : m - tn\ - 1 (11.47) 

À partir des observations de l’échantillon (x\,...,x n ), on observe une réalisation de la 
moyenne empirique égale à x„ = 1,13. Quelle est la conclusion du test pour un seuil de 
risque a = 5 % et un seuil de risque a = 30 % ? On admet que la région critique du test de 
niveau a est définie par : 


W 


a 


x: x„< m 0 + — 0 ( a ) 

V« ) 


Pour a = 5 %, on obtient : 


/«o + — —<t> (a) = 1,2 + - 

Vîôô 

i 

= 1,2 + 


Vîciô 


0-' (0,05) 

(-1,6449) = 1,0355 


La région critique du test pour un niveau a = 5 % est définie par : 

W = [x\x n < 1,0355} 


( 11.48) 

(11.49) 

(11.50) 

(11.51) 


où x„ désigne une réalisation de la statistique de test X„ = « 1 ^ X,. Puisque la réalisation 


;=i 


de la moyenne empirique, égale à 1,13, n’appartient pas à la région critique on conclut que 
l’on ne peut pas rejeter l’hypothèse nulle Ho : m = 1,2 pour un seuil de significativité de 5 %. 
Pour a - 30 %, il vient : 


/«o + -^=0 ' («) = 1,2 + - 

y[n VTÔÜ 


= 1,2 + 


1 


Vïôô 


0 (0,30) 

(-0,5244) = 1,1476 


La région critique du test pour un niveau a = 30 % devient : 

W= {x:x n < 1,1476} 


(11.52) 

(11.53) 

(11.54) 


Dans ce cas, la réalisation de la moyenne empirique, égale à 1,13, appartient à la région 
critique. On en conclut que l’on rejette l’hypothèse nulle Ho : m = 1,2 pour un seuil de 
significativité de 30 %. La décision est contraire à celle que nous avions prise pour un niveau 
a = 5%. 


En résumé, la décision issue d’un test peut être : 

- soit le rejet de l’hypothèse nulle Ho pour un niveau de risque (ou un seuil de signi¬ 
ficativité) donné. 

- soit le non-rejet de l’hypothèse nulle Ho pour un niveau de risque (ou un seuil de 
significativité) donné. 
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FQCUS 

La démarche d'un test statistique 


À partir des différents éléments présentés jusqu’à 
présent (hypothèse nulle, hypothèse alternative, 
région critique, seuil critique, statistique de test, 
risque de première espèce), nous pouvons résumer 
la démarche d’un test statistique de la façon sui¬ 
vante : 

- Étape 1. Poser l’hypothèse nulle Ho et l’hy¬ 
pothèse alternative Hj, en faisant attention à 
ce que l’hypothèse nulle corresponde à l’hypo¬ 
thèse pour laquelle le coût associé à l’erreur de 
type I soit le plus élevé. 

- Étape 2. Définir la forme de la région critique : 
cela revient à définir la statistique de test T n 
ainsi que la zone de rejet de l’hypothèse nulle 
Ho exprimée en fonction des réalisations de 
cette statistique. 

- Étape 3. À partir des hypothèses faites sur la 
(ou les) variable(s) d’intérêt et l’échantillon, dé¬ 


river la distribution exacte ou la distribution 
asymptotique de la statistique de test T„ sous 
l’hypothèse nulle. 

- Étape 4. Déterminer la (ou les) valeur(s) cri- 
tique(s) en fonction du niveau de risque a du 
test. 

- Étape 5. Calculer la réalisation de la statistique 
de test T„ à partir des observations de l’échan¬ 
tillon. 

- Étape 6. Comparer cette réalisation à la région 
critique du test. Si la réalisation de la statistique 
de test appartient à la région critique, on conclut 
au rejet de l’hypothèse nulle Ho pour un niveau 
de risque a. Si, au contraire, cette réalisation 
n’appartient pas à la région critique, on conclut 
que l’on ne peut pas rejeter l’hypothèse nulle Ho 
pour un niveau de risque a. 


2.2 


La valeur p ou p-value 


Pour conclure quant au rejet ou non de l’hypothèse nulle, il convient de comparer la 
réalisation de la statistique de test à la région critique. Une autre façon de conclure 
consiste à utiliser la valeur p ou p-value en anglais. Nous avons vu, que pour une 
réalisation donnée de la statistique de test T n (x), la conclusion du test peut changer 
lorsque l’on modifie le niveau de risque. L’idée de la p-value consiste à déterminer le 
plus petit niveau pour lequel on peut rejeter l’hypothèse nulle. 

Définition 11.14 

Supposons que pour chaque valeur a€]0,l [, corresponde une région critique W (l 
de niveau a. Alors, la p-value associée à une réalisation de la statistique de test 
T (x) est définie comme la plus petite valeur de a pour laquelle on peut rejeter 
l’hypothèse nulle Ho : 

p-value = inf (a : T (x) € W a } ( 11.55) 


Reprenons l’exemple précédent. 
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Exemple 

On considère un «-échantillon de variables (Xj. X n ) i.i.d. telles que X,- ~ N(rn,<j 2 ) avec 

cr = 1 et « = 100. On souhaite tester : 

Ho \ m - rru.) — 1,2 contre H| . m — m.\ = 1 (11.56) 

À partir des observations de l’échantillon (xi ,...,x„), on observe une réalisation de la 
moyenne empirique égale à x„ - 1,13. Déterminons la p-value associée à cette réalisation. 
On admet que la région critique du test de niveau a est définie par : 

W„ = : x„ < m 0 + (a) j ( 11.57) 

où &(.) désigne la fonction de répartition de la loi normale centrée réduite. Calculons les 
valeurs critiques pour différentes valeurs de a comprises en 0 et 1. Ces valeurs critiques sont 
reportées dans le tableau 11.2 avec les conclusions associées quant au rejet ou non de Ho- La 
p-value associée à x„ = 1,13 correspond à la plus petite valeur de a qui permet de rejeter H (l . 
Cette p-value est donc comprise entre 0,24 et 0,25. 


▼ Tableau 11.2 Valeurs critiques et conclusion du test 


CY 

tf»" 1 (a) 

m 0 + —~ V* 1 (a) 

Vn 

Conclusion 

0,01 

-2,3263 

0,9674 

non-rejet de Ho 

0,05 

-1,6449 

1,0355 

non-rejet de H 0 

0,10 

-1,2816 

1,0718 

non-rejet de Ho 

0,15 

-1,0364 

1,0964 

non-rejet de H 0 

0,20 

-0,8416 

1,1158 

non-rejet de H 0 

0,24 

-0,7063 

1,1294 

non-rejet de Ho 

0,25 

-0,6745 

1,1326 

rejet de Ho 

0,30 

-0,5244 

1,1476 

rejet de H 0 

0,35 

-0,3853 

1,1615 

rejet de Ho 

0,40 

-0,2533 

1,1747 

rejet de H 0 


Il existe une façon plus directe de déterminer la p-value pour une réalisation de la 
statistique de test T n (x). Pour cela, il suffit de considérer la fonction de répartition de 
la statistique de test T n , obtenue sous l’hypothèse nulle à partir, soit de sa loi exacte, 
soit de sa loi asymptotique. La règle est alors suivante. 


Définition 11.15 

Suivant la nature du test (unilatéral ou bilatéral), la p-value associée à une réali¬ 
sation T„ (x) est égale à : 

Test unilatéral droit : p-value = 1 - Fj n (T„ (x)) ( 11.58) 

Test unilatéral gauche : p-value = Fj„ ( T„ (x)) ( 11.59) 

Test bilatéral : p-value = 2 x Ft„ (- | T n (x)|) (11.60) 

où Ft„ (.) désigne la fonction de répartition de la statistique de test T„ sous l’hy¬ 
pothèse nulle Hq. 
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Exemple 

On considère un «-échantillon de variables (X|,...,X„) i.i.d. telles que X, ~ A/'(w,cr 2 ) avec 
a- 1 = 1 et n = 100. On souhaite tester : 


H<) : m = ma =1,2 contre H| : m = m\ — 1 (11.61) 

À partir des observations de l’échantillon ( x\,...,x n ), on observe une réalisation de la 
moyenne empirique égale à x„ - 1,13. Déterminons la p-value associée à cette réalisation. 
Sous Ho, la statistique de test, Le. la moyenne empirique, admet une distribution (exacte) 
normale : 

X„ - m,) 


X„ 


Ho 


O" 

N\m 0 ,— 

n 


cr / yfn h 0 


N (0,1) 


Puisque le test est un test unilatéral gauche, la p-value associée à x„ est égale à : 

p-value = Fy n (x„) = Pr(x„ < x„) 

On en déduit que : 


(11.62) 


(11.63) 


1 n (Xn~mo X„-W 0 ) ^l*n 

p-value = Pr -— <-— = <P\ — 

l w/yfn cr/y/n ) \ cr/ 


(11.64) 


cr/yfn ) 

où <t >(.) désigne la fonction de répartition de la loi normale centrée réduite. On vérifie ainsi 
que la p-value associée à x n = 1,13 est comprise entre 0,24 et 0,25, puisque : 


p-value = 0 


1,13 - 1,2 

1/VTÔÔ 


= <£(-0,7) = 0,2420 


(11.65) 


L’avantage de la p-value est qu’elle permet de conclure quant au rejet ou non de Ho 
sans avoir à calculer la valeur critique du test. Il suffit de calculer la p-value associée 
à la réalisation de la statistique de test et d’appliquer la règle de décision suivante. 

Empjjété 

p-value et règle de décision 

On rejette l’hypothèse nulle Ho si la p-value est inférieure au seuil de significativité 
(niveau) a : 

p-value < a => rejet de H 0 (11.66) 

p-value > a =» non rejet de H () (11.67) 
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Ainsi, dans l’exemple précédent, nous avions obtenu une p-value de 0,2420. Par 
conséquent, pour un seuil de significativité a = 5 %, on conclut au non rejet de 
l’hypothèse nulle Ho : m = 1,2. Cette conclusion est bien évidemment identique à 
celle que nous avions obtenue sur la base de la comparaison de la réalisation de la 
statistique de test et de la région critique définie pour un niveau a = 5 %. 

Remarque : La p-value est donc une mesure du caractère non plausible de l’hypothèse 
nulle Ho, comme l’indique le tableau 11.3. Mais attention, une p-value importante 
n’indique pas nécessairement que l’hypothèse nulle Ho est valide. Dit autrement, la 
p-value ne correspond pas à la probabilité que Ho soit vraie. En effet, une p-value peut 
être importante pour deux raisons : soit parce que Ho est effectivement vraie, soit parce 
que le test est peu puissant. 
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▼ Tableau 11.3 Interprétation de la p-value 


p-value 

Caractère non plausible de H 0 

<0,01 

très forte présomption que H 0 soit fausse 

0,01-0,05 

forte présomption que H 0 soit fausse 

0,05-0,10 

faible présomption que Ho soit fausse 

>0,10 

pas de preuve que H 0 soit fausse 


EN PRATIQUE 

Les p-values dans les logiciels d'économétrie 


Les p-values sont reportées de façon systéma¬ 
tique dans la plupart des logiciels d’économétrie, 
comme l’illustre la figure 11.3 reprenant une sor¬ 
tie du logiciel Eviews. Dans cet exemple, l’hy¬ 
pothèse nulle testée est celle de la nullité des 
coefficients associés aux différentes variables de 
ce modèle Probit. Sans même connaître le test 
mis en œuvre, ni sa valeur critique, les p-values 


permettent de conclure quant au rejet ou non 
de H(>. C’est pourquoi, elles facilitent grande¬ 
ment l’interprétation des résultats. Ainsi, dans cet 
exemple, pour un seuil de significativité 0 = 5%, 
on rejette l’hypothèse nulle de nullité des coeffi¬ 
cients associés aux variables X] et C (constante). 
En revanche, on ne peut pas rejeter l’hypothèse 
nulle de nullité pour le coefficient de la va¬ 
riable X 2 . 


Dtp«vd*nt Vanâtt* Y 
Mttfto* ML B«wy *oM 
Dm M/» U Tim» 23 35 
1 32 

l'^Hjdvd ebv*njt«ovn, 32 

COTMNgvntr acfomvd JIm 4 ««allons 

Cttananeo matin campuiad uvng m eona dro.af 


Vanatt# 

CoaOoanl 

Std Dr» 

iStJtiltK. 

Prob 

XI 

14095/5 

0 43544/ 

22181/2 

0 0245 

X2 

0 05266/ 

0 0/5553 

0 69/044 

0 485/ 

C 

6 034326 

? 121031 


00Û44 

Maan va» 

0 313760 
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0482459 
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8 8/9144 
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0 215600 

Pfo6aW«yvlR stalj 

0 011601 




Ot» with D*p“0 

21 

To»JfOt» 


32 

Ob« with 0*p* 1 

n 






MHMi 

Statistiques de test 
associées au test de 
nullité des coefficients 


P-values associées 


▲ Figure 11.3 P-values 


2.3 


Fonction puissance 


Reste une dernière dimension à évoquer concernant la puissance d’un test. Dans le cas 
d’un test d’une hypothèse simple contre une hypothèse simple, nous avons vu que la 
puissance était égale à une valeur. Dans le cas d’un test d’une hypothèse simple contre 
une hypothèse composite, la puissance n’est plus un nombre, mais une fonction de la 
valeur du paramètre sous Hi : on parle alors de fonction puissance. 
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Définition 11.16 

Lorsque l’hypothèse alternative du test est composite (test unilatéral ou bilatéral), 
la puissance est une fonction de la valeur du paramètre 8 sous l’alternative : 

Puissance = P (8) V(9eH| (11.68) 
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Intuitivement, plus la valeur de 8 sous l’hypothèse alternative Hi est éloignée de la 
valeur sous l’hypothèse nulle 8a, plus la puissance est élevée, car il y a moins de risque 
de ne pas rejeter Hq si H] est vraie. Inversement, plus la valeur de 6 sous l’hypothèse 
H| est proche de 8a, plus la puissance est faible. Considérons un exemple de fonction 
puissance. 


Exemple 

Soit un «-échantillon de variables (X|,...,X„) i.i.d., avec n - 100, telles que X ( ~ A/'(«i,tr 2 ), 
où m est un paramètre inconnu et cr — 1. On souhaite tester : 

H 0 : m = trio = 1,2 contre H| : m < /«o (11.69) 


On admet que la région critique du test unilatéral de niveau a = 5 % est définie par : 

W = jx : x„ < ma + -^=0”' (a)j (11.70) 

n 

où X n = n ~ 1 ^Tx, désigne la moyenne empirique. Sous l’hypothèse alternative H|, nous 

X„ - m 


savons que : 


N (0, l) Vw < ma 

cr/y/n m 

Par conséquent, la fonction puissance de ce test est définie par : 

P(m) = Pr(W|H,) = Pr(X„ <m 0 + -^=0“' (a) 
\ xn 


H . 


= Pr 


= 0 


X n — m yfn I cr 


cr/y/n cr 


< - ma + —— 0' 1 (a) — m 




W. 


cr/ yfn 

L’application numérique nous donne : 


ma-m . . 

+ 0 (u) V/« < ma 


P (m) - 0 


1,2 — m 

1/VTÔÔ 


- 1,6449 V/« <1,2 


(11.71) 

(11.72) 

(11.73) 

(11.74) 

(11.75) 


La figure 11.4 représente cette fonction pour des valeurs de m comprises entre 0,7 et 
1,2. On constate que plus la valeur de m sous l’hypothèse alternative s’éloigne de la 
valeur sous l’hypothèse nulle ma = 1,2, plus la puissance augmente. Pour des valeurs 
de m suffisamment éloignées de ma, la puissance est égale à 1. On observe en outre 
que la puissance du test ne descend jamais en dessous de la taille a = 5%. Lorsque 
la valeur de m tend vers la valeur sous l’hypothèse nulle ma = 1,2, la puissance tend 
vers la taille a - 5 %. 

Dans cet exemple, nous avons considéré un test unilatéral du type Ho : 8 - 8a contre 
H) : 8 < 8a. Pour un test unilatéral du type Ho : 8 = 8a contre H \ : 8 > 8a, la 
fonction puissance (► figure 11 .6) serait définie pour des valeurs 8 > &a sous la forme 
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d’une fonction croissante avec la valeur de 8. Dans le cas d’un test bilatéral du type 
H 0 : 8 = do contre H| : 8 + 8q, la fonction puissance est définie de part et d’autre de 
la valeur 8q et croit avec la distance 1 8 - 8o\ comme l’illustre la figure 11.5. 





A Figure 11.4 Fonction puissance 
du test unilatéral H 0 : m = 1,2 
contre hh : m < 1,2 


A Figure 11.5 Fonction puissance 
d'un test bilatéral H 0 : 0 = 8 0 contre 

H-i : Q ± üo 


A Figure 11.6 Test UPP unilatéral 
H 0 : 6 = 0 O contre H i :0 > 0 O 


Remarque : La fonction puissance n’est définie que pour les valeurs de 8 admissibles 
sous l’hypothèse H]. Ainsi, la quantité P (do) n’est pas définie. 

Nous pouvons à présent définir les notions de test sans biais et de test convergent. 

Définition11.17 

Un test est dit non biaisé si la valeur de sa fonction puissance P (8) est toujours 
plus élevée que sa taille a pour toutes les valeurs admissibles de 8 sous l’hypothèse 
alternative H i : 

P(8) > a V8e H, (11.76) 

Par ailleurs, la fonction puissance d’un test non biaisé tend vers la taille lorsque la 
valeur de 8 (sous H| ) tend vers la valeur 8q : 

limP(Æ) = a (11.77) 

DéfipitignJLl,L8 

Un test est dit convergent si sa puissance tend vers l’unité lorsque la taille 
d’échantillon n tend vers l’infini, quelle que soit la valeur du paramètre 8 sous 
l’hypothèse alternative Hj : 

lim P(8) = 1 V8 € H| (11.78) 

n—*oo 


Appliquons ces deux définitions dans le cadre de notre exemple. 

Exemple 

Soit un «-échantillon de variables (X|,...,X„) i.i.d. telles que X,- ~ A/'(/«,cr 2 ) où in est un 
paramètre inconnu. On souhaite tester : 

Ho : m = wio contre H| : m < mo (11.79) 
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On admet que la région critique du test de niveau a est définie par : 

W = jx : x„ < rn u + (u)j (11.80) 

Nous avons vu que la fonction puissance de ce test est égale à : 

P(m) = <P\ ——^ (a)| Vw < ;n u (11.81) 

\ a-/yfn ) 

Montrons que ce test est sans biais et convergent. Puisque la quantité m () - m est positive, 
nous avons : 

ma — m 

lim -— = +oo ( 11.82) 

cr/\n 

La fonction de répartition <t> (x) étant une fonction croissante à valeurs sur [0,1 ], on montre 
que le test est convergent , puisque : 

WmP(m) = <t> (+oo) = 1 Vm < mo (11.83) 

tl —>oo 

Par ailleurs, par définition <2(tr)j = a, donc : 


P (m) = <t> 


mo - m 
cr/ yfn 

quantité positive 


+ <t> 1 (a) 


> a im < ma 


(11.84) 


La puissance est toujours supérieure à la taille du test, donc le test est sans biais. De plus, on 
vérifie que : 

limP(m) = <2>(<2>-'(a)) = a' (11.85) 

m —*mo ' t 
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La comparaison de deux tests convergents et non biaisés, de même niveau se fait sur la 
base de la fonction puissance. On introduit alors la notion de test uniformément plus 
puissant ou test UPP. 

Définition 11.19 

Lin test A est dit uniformément plus puissant (UPP) de niveau a, si sa fonction 
puissance est supérieure à celle de tous les tests de niveau a pour toutes les valeurs 
admissibles du paramètre 0 sous l’hypothèse alternative H] : 

cta = a b = a P^(0) > Pg(0) VfleHi (11.86) 

pour tout test B de niveau a. 


La figure 11.6 illustre, dans le cas d’un test unilatéral du type Ho : 8 = contre 
Hi : 0 > 6*o, la notion de test UPP. Sur cette figure sont représentées les fonctions 
puissance du test UPP de niveau a (test A) et d’un autre test (test B) de même niveau 
a. La fonction du test UPP est toujours supérieure à celle du test B pour toutes les 
valeurs de 0 > Qq. Bien évidemment, lorsque la valeur de 0 est très éloignée de Oo, les 
puissances des deux tests se rejoignent et tendent vers l’unité. 
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Tests paramétriques 


Dans cette section, nous allons nous concentrer sur les tests paramétriques, i.e. les 
tests portant sur la valeur d’un ou de plusieurs paramètres de la distribution (para¬ 
métrique) de la variable d’intérêt. La question qui se pose est de savoir comment 
construire un test statistique, c’est-à-dire comment déterminer la forme de la région 
critique de ce test? Pour ce faire nous allons introduire le lcmmc de Neyman- 
Pearson dans le cadre de tests d’hypothèses simples, puis nous l’appliquerons à des 
tests unilatéraux et bilatéraux. 


3.1 


Lemme de Neyman-Pearson 


Le lemme de Neyman-Pearson est une méthode qui permet de dériver la forme de la 
région critique d’un test paramétrique, c’est-à-dire à la fois la forme de la statistique 
de test T n et la forme de la région F (c). 

On considère un «-échantillon (Xi,... ,X n ) de variables aléatoires dont la distribution 
(continue ou discrète) dépend d’un paramètre 6 inconnu. Soit (xi,...,x„) la réalisa¬ 
tion de cet échantillon et L„ (0\ x) la vraisemblance associée. L’énoncé du lemme de 
Neyman-Pearson est le suivant : 


Propriété 

Lemme Neyman-Pearson 

Soit le test d’hypothèses simples Ho : 6 = #o contre H| : 6 = 6\. La région critique 
du test uniformément plus puissant (UPP) de niveau a est définie par : 


W = 


x . L„(Q 0 ;x) < ) 

L n (8\ ; x) < J 


(11.87) 


où L„(#;x) désigne la vraisemblance de l’échantillon (xi ,...,x„) et k est une 
constante déterminée par le niveau du test a, telle que : 


Pr 


L„ (fl»; X) 

K (0,;X) 


< k 



= a 


( 11 . 88 ) 


Comment utiliser le lemme de Neyman-Pearson? L’idée est de réarranger les termes 
de l’inégalité L n (d () ; x)/L n (8\ ; x) < k afin d’obtenir un résultat du type : 

r„(x)$c (11.89) 

où c est une valeur critique (constante) déterminée par le niveau a du test et T n (x) 
est une réalisation de la statistique de test T n dont on connaît la loi exacte ou la loi 
asymptotique sous l’hypothèse nulle Ho. Pour cela, on doit donc rassembler à gauche 

de l’inégalité les termes dépendant des réalisations xj.x„, et à droite les termes 

constants. Il convient toutefois de bien faire attention au sens de l’inégalité qui peut 
changer. Considérons un exemple d’application du lemme de Neyman-Pearson. 
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Exemple 

On considère un «-échantillon (Xt,...,X„), avec n = 100, de variables i.i.d. telles que X, ~ 
N\m,a 2 J où le paramètre m est inconnu et <x 2 = 1. On souhaite tester : 

Ho : m = «lo = 1,2 contre H) : m — m\ = 1,4 (11.90) 


Quelle est la région critique du test UPP de niveau a = 5 %? Puisque les variables 

X\,...,X„ sont N.i.d.(m, cr 2 ), la vraisemblance de l’échantillon (.xri,_,-x«) est définie par 

(► chapitre 10) : 


L n (m ; x) = 


1 


CT n (27T) 


n/2 


exp 


i=i 


(11.91) 


D'après le lemme de Neyman-Pearson, la région critique du test UPP de niveau a est de la 
forme : 

L„ (mn\ .r) 

/ < k (11.92) 

L n (m\\x) 

où k est une constante déterminée par le niveau a. En utilisant la forme de la vraisemblance 
sous H () et H|, il vient : 


L„(mp;x) _ o-»( 2 n)" /2 
L„(m,;x) 


ex P(~2^ 2"=i ( x ‘ ~ m o) 2 ) 
' ex p(~2^ 2?=| U- -m\) 2 ) 


<k 


(11.93) 


(fOn )" 11 

Réarrangeons ces termes de sorte à isoler à gauche une statistique de test et à droite un terme 
constant. Cette inégalité peut se réécrire sous la forme : 


exp 


(Z (Xi ~ m ° )2 ■ Z (x ‘ - m ' ): 


< k 


(11.94) 


<=> ^ (Xj -nt|) 2 -^ (j ^ - m 0 ) 2 <ki (11.95) 

i=i i=i 

où ki = 1er ln (k) est une constante. Ainsi, nous avons : 

n n 

2 (/n 0 — m\) ^ Xi + n {tn\ — m^j < k\ <=> (/«o - m\ ) ^ Xj <ki (II .96) 

;=t i=i 

où Ât 2 = (A'i - n[in] - t«o))/2 est une constante. Puisque m\ - m a = 0,2 > 0, nous obtenons 
finalement : 

Xi > k?, (11.97) 

où ks = ki/ ( n (nio — m\ )) est une constante. Par conséquent, la région critique du test UPP a 
une forme générale du type : 

W = {* : > c) (11.98) 

où c est constante (valeur critique) déterminée par le niveau a. La statistique de test corres- 

n 

pond à la moyenne empirique X„ = ^ X,- et vérifie : 

;=i 



X„ - m 0 


Af(0,1) 


(11.99) 


cr/ yfn H o 

On remarque que la forme des constantes k \, k 2 et k 2 n’a aucune importance. Ce qui importe 
c’est que ces paramètres ne dépendent pas des réalisations X\ ,...x n . Comme nous l’avons fait 
dans la section 1.3, nous pouvons exprimer la valeur critique A en fonction de a : 

a = Pr(W|Hu) = Pr(3c„ > c| H„) (11.100) 

Xn 


1 -Pr 


= 1-0 


■ m 0 


m 0 


cr/ yfn 
c - m 
cr/ yfn 


cr/ yfn 


H f 


( 11 . 101 ) 


( 11 . 102 ) 
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où <P(.) désigne la fonction de répartition de la loi normale centrée réduite. 

c-m 0 


Ic-m 0 \ , 

- a - 0\ -— <=> 0 

\crl \fn) 


( 1 - a) = 


(t/ yfn 


(11.103) 


On en déduit la valeur critique du test : 

c = m 0 + 0 (1 -a) = 1,2+ —L= X 0~' (0,95) (11.104) 

y/n VlOO 

= 1,2+ —L= x 1,6449 = 1,3645 (11.105) 

Vïôô 

Au final, la région critique du test UPP de niveau a = 5 % de l’hypothèse H 0 : m = m 0 = 1,2 
contre H| : m = m\ = 1,4, est définie par : 


W = |.v : x„ > rriQ + —= 0 1 ( 1 - a) j = {x : x„ > 1,3645} (11.106) 

Si la réalisation de la moyenne empirique est supérieure à 1,3645, on rejette l’hypothèse nulle 
Hq : m = 1,2 pour un seuil de significativité de 5 %. 


Remarque : Dans cet exemple, la statistique de test correspond à un estimateur du 
paramètre testé, puisque X„ est un estimateur de l’espérance E(A,) = m. Dans ce cas, 
la forme de la région critique est évidente. Puisque la réalisation de l’estimateur est 
censée être « proche » de la vraie valeur, si l’on teste : 

Ho : 8 = contre H| : 6 = G\ avec 8\ > 6q, (Il .107) 

on rejette l’hypothèse nulle Ho lorsque la réalisation de l’estimateur est suffisamment 
« grande », c’est-à-dire lorsque cette réalisation est supérieure à une certaine valeur 
critique. La région critique du test UPP est donc de la forme : 

W = {jc : ?(x) > c) (11.108) 

où 8(x) désigne la réalisation de l’estimateur 8. Inversement, si l’on teste : 

Ho : 8 = 8q contre H| : 8 = 8\ avec 8\ < 8q, (11.109) 

on rejette l’hypothèse nulle Ho lorsque la réalisation de l’estimateur est suffisamment 
« petite », et la région critique est de la forme : 

W = {x:?(x)<c} (11.110) 


3.2 


Tests unilatéraux et bilatéraux 


Nous savons à présent comment déterminer la région critique du test UPP d’une hypo¬ 
thèse simple contre une hypothèse simple. Mais qu’en est-il pour les tests unilatéraux 
et bilatéraux ? 


Dg.tiDMon_1J.^Q 

La région critique du test unilatéral UPP de niveau a : 

Ho : 8 = 8o contre H| : 8 > 8q (ou Hi \8<8\) (11.111) 

est équivalente à celle du test d’hypothèses simples : 

Ho : 8 = #o contre H i : 8 = 8\ (11.112) 

avec > 8o (ou 8\ < 8q), dès lors que cette région ne dépend pas de la valeur 
de 8]. 
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Appliquons cette définition dans le cadre de notre exemple. 

Exemple 

On considère un «-échantillon (Xi,...,X„) de variables N.i.d.lm.cr 2 ) où le paramètre m est 
inconnu. On souhaite tester : 

Ho : m - mç, contre Ho : «i > /«o (11.113) 

Déterminons la région critique du test UPP de taille a. Pour cela, on considère le test d’hy¬ 
pothèses simples : 

H 0 : m = mo contre Ho : m = m\ (11.114) 

où tn | est une valeur telle que m\ > m o. D’après le lemme de Neyman-Pearson, la région 
critique du test UPP de niveau a est (► exemple précédent) : 

W = jx:x„ >m„ + -^<Z>~'(1 -<*)j (11.115) 

où 0(.) désigne la fonction de répartition de la loi normale centrée réduite. La région W ne 
dépend pas du choix de la valeur de m t . Cette région correspond donc à celle du test UPP 
unilatéral de niveau a : 

Ho : m = niQ contre H 0 : m > m 0 (11.116) 
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Dans le cas d’un test bilatéral Ho : 0 = Go contre Hi : 0 + il n’existe pas de test 
UPP valable à la fois pour les valeurs de 0 supérieures à la valeur nulle Oo et pour les 
valeurs inférieures à ce seuil. Dit autrement, si l’on considère deux tests A et B tels 
que la fonction puissance du test A est supérieure à celle du test B pour les valeurs 
0 < 6o, alors la fonction puissance du test A est nécessairement inférieure à celle du 
test B pour les valeurs 0 > 0q. C’est pourquoi, la région de non-rejet du test bilatéral 
(non UPP) est définie par l’intersection des régions de non rejet des tests unilatéraux 
UPP correspondants. 

La région de non rejet W du test bilatéral de niveau a : 

Ho : 6 = do contre H i : 0 + 0o (11.117) 

est définie par l’intersection des régions de non rejet des tests unilatéraux UPP 
correspondants de niveau a/2 : 

Test A : Ho : 0 = 0q contre H| : 0 > 0o (11.118) 

Test B : Ho : 0 = 0o contre H | : 0 < 0q (11.119) 

Soient et W g les régions de non rejet des tests A et B au niveau a/2, la région 
critique du test bilatéral de niveau a vérifie : 

W = W 4 nW g (11.120) 

11 est important de noter que les seuils critiques des tests unilatéraux qui servent à 
construire la région critique du test bilatéral de niveau a doivent être considérés pour 
un niveau de risque a/ 2 et non a. 
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FO C U S 


La région critique d'un test bilatéral 


La région de non rejet du test bilatéral Ho : 6 = (?o 
contre H] : 6 + 6q de niveau a, est définie par l’in¬ 
tersection des régions de non-rejet des tests unila¬ 
téraux UPP associés de niveau a/ 2. Pourquoi uti¬ 
liser un niveau de risque a/2 au lieu de a? Rai¬ 
sonnons par l’absurde. Supposons que les régions 
critiques et les régions de non rejet des tests unila¬ 
téraux s’écrivent sous la forme : 


Test A : Ho : 0 = 9q 
Test B : H 0 : 9 = 9o 
W A = (x : T „ (x) > c A ] 
Wg = {x : T„ (x) < c fi } 


contre H, : 9 > 9 0 

( 11 . 121 ) 

contre H i : 6 < 9 o 

( 11 . 122 ) 

W .4 = {x : T n (x) < c A } 

(11.123) 

W fi = lx : T n (x) > cgi 

(11.124) 


où T n (x) désigne la réalisation de la statistique de 
test T n , et c,\ et cg sont deux valeurs critiques. 
Si l’on suppose que ces régions critiques sont 
construites pour un niveau de risque de première 
espèce égal à a, alors par définition : 

a = Pr ( W A | H 0 ) = Pr ( T n > c A |H 0 ) (11.125) 

a = Pr(Wfi|H 0 ) = Pr(T„ < c e |H 0 ) (11.126) 


Logiquement, les valeurs critiques c A et c B véri¬ 
fient cb < c A . Dès lors, la région de non-rejet W 
du test bilatéral, définie par l’intersection des ré¬ 
gions W ,4 et Wg, est égale à : 
w = W, 4 nWg = (x : (T n (x) < c A ) n (T n (x) > c B )\ 

(1 1.127) 

On obtient ainsi : 

W = {x : es < T„ (x) < c A } (11.128) 


Déterminons le risque de première espèce associé 
à ce test bilatéral : 


Pr(W|H 0 ) = I - Pr 



= 1 - Pr ( Cfi < T n < c 4 |H 0 ) 

(11.129) 


Sachant que Pr(n<X<u) = Pr(X<c)- 
Pr(X < u ), il vient : 

Pr(W|H 0 )= 1 -Pr(7„ <cx|H 0 ) 

+ Pr(7’„ <cb|H 0 ) (11.130) 

= 1 -(1 - a) + a = 2a (11.131) 


Le niveau de risque du test bilatéral est donc égal 
à 2o'. C’est pourquoi, afin d’obtenir un niveau de 
risque précisément égal à a pour le test bilatéral, 
on considère des seuils critiques des tests unilaté¬ 
raux définis pour un niveau de risque de a/2. 


Appliquons cette définition dans le cadre de notre exemple. 

Exemple 

On considère un n-échantillon (X U ...,X„). avec n = 100, de variables N.i.d(/a,cr 2 J, où m est 


un paramètre inconnu et cr 2 = 1. On souhaite tester : 

H» : m = nia = 1,2 contre H| : m # m o (11.132) 

Déterminons la région critique de ce test bilatéral pour un niveau a = 5 %. On considère les 
tests unilatéraux associés : 

Test A : H 0 : m = m 0 contre H, : m < m 0 ( 11.133) 

Test B : H 0 : m = m Q contre H] : m> mo (11.134) 

Les régions critiques des tests UPP de niveau a/2 sont définies par : 

W A = jx : x„ < mo + 7^^ ' (f)j (11.135) 

W B = jx : x„ > /m 0 + (* ~ ^)j (11.136) 
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où désigne la fonction de répartition de la loi normale centrée réduite. Les régions de 
non rejet de niveau a/2 sont définies comme les régions complémentaires de W A et de W B : 

W A = jx : x n > m 0 + (|)J (11.137) 

W B - jjc : <m o +^=0- ] (l - |)} (11.138) 

La région de non rejet du test bilatéral de niveau a correspond à la zone d’intersection de ces 
deux régions : 

W = W A nWj (11.139) 


w„ 


I w. 


m 0 + -j=<t> '(“/Z) 


W 


m,, + -=<t> ‘(1 -a/2) 
Vn 
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▲ Figure 11.7 Région de non-rejet du test bilatéral de niveau a 


Pour 0 = 5%, nous savons que <J> 1 (a/2) < 0 et 0 1 (1 - a/2) > 0. Par conséquent, les 
valeurs critiques des deux tests unilatéraux vérifient : 

Comme le montre la figure 11 .7, la région de non-rejet du test bilatéral de niveau a est donc 
définie par : 

W = + + (11.141) 

Sachant que n = 100, m 0 = 1,2, cr 2 = 1 et o = 5 %, nous avons : 

mn + ( —) = 1,2 H —-== x (-1,96) = 1,0040 (11.142) 

Vn ' 2 / VTÔÔ 

7«o+ (l - -) = 1,2+ -4= x (1,96) = 1,3960 (11.143) 

y/n ' 2/ VÎÔÔ 

La région de non-rejet et la région critique du test bilatéral de niveau a = 5% sont respecti¬ 
vement définies par : 

W= [x : 1,0040 <x„ < 1,3960}, W = {x : x„ t [1,0040 ; 1,3960]) (11.144) 


On peut réécrire ces deux régions sous une autre forme. Puisque la loi normale standard 
est symétrique par rapport à zéro, on a 0 l (a/2) = -d>“' (1 — a/2). La région de non-rejet 
devient : 


( cr . / 


cr . / 

a\j 


. _ 2 J 

1 < x„ < m 0 + —<P [ 

'-ï); 


ou encore : 


W 


x : 


W = {x : 


g 

i 

< 0 1 

(l - 

a-/ y/n 


2/J 

niveau a 

peut donc être dé 

x„ - m {) 
cr/ y/n 

> 0~' 

(■-!)} 


(11.145) 

(11.146) 

(11.147) 
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Soit W= jx : |x„ - 1,2|/(cr/ ffnj > l,96j. Si l’écart entre la réalisation de la moyenne empi¬ 
rique et la valeur nulle iriQ = 1,2, normalisé par cr/ sfn, est supérieur (en valeur absolue) au 
seuil critique de 1,96, on rejette l’hypothèse nulle Ho : m =1,2 pour un niveau de risque 
de 5 %. 


□ Tests d'indépendance 
et d'adéquation 

Jusqu’à présent, nous avons considéré des tests paramétriques portant sur la valeur 
d’un paramètre de la distribution de la variable d’intérêt dans la population. Dans cette 
section nous allons étudier deux tests non-paramétriques : le test d’indépendance 
du khi-deux et le test d’adéquation (ou d’ajustement) du khi-deux. Ces tests sont 
particulièrement utilisés, notamment dans le cadre d’applications en marketing. 


4.1 


Tests d'indépendance du khi-deux 


BsÜDilisD.1122 

Le test d’indépendance du khi-deux permet de tester si deux variables aléa¬ 
toires, X et Y, sont indépendantes. Les hypothèses nulle et alternative de ce test 
s’écrivent respectivement sous la forme : 

Hq : X et Y sont indépendantes contre H, : X et Y sont dépendantes (11.148) 


Nous considérerons ici le cas de deux variables discrètes admettant un nombre de 
modalités fini. On suppose que la variable aléatoire discrète X peut prendre k modalités 
différentes et que la variable Y peut prendre .v modalités différentes : 


a\ 

avec une probabilité Pr(X = ai) 


«2 

avec une probabilité Pr(X = a{) 

(11.149) 

a k 

avec une probabilité Pr(X = a k ) 


b\ 

avec une probabilité Pr (P = b\) 


bi 

avec une probabilité Pr (P = bi ) 

(11.150) 

b s 

avec une probabilité Pr(F = b s ) 



k s 

avec par définition ^ Pr (X = ai) = 1 et ^ Pr (k = bjj = I . 

;=i j= î 

Pour mettre en œuvre ce test, on dipose d’un «-échantillon (x (l ,y, : )" =| . Ces observations 
peuvent être représentées par un tableau de contingence (► chapitre 2). Soit le 

2 Le test d’indépendance du khi-deux peut aussi s’appliquer à des variables continues ou à des variables 
discrètes admettant un nombre de modalités infini (par exemple si X e N). Dans ce cas, on découpe 
l’ensemble des valeurs que peut prendre X en k classes et l’on fait de même pour Y en découpant son 
support en s classes. 
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nombre d’individus dans l’échantillon pour lesquels on observe X = a-, et F = bj. Soit 
n x= i le nombre total d’individus pour lesquels on observe X = a, et soit n y= j le nombre 
d’individus pour lesquels on observe F = bj, tels que : 

ns n k 

n *=i = X = X "'d> n y=J = X = X Hi 'i (H-151) 

v = 1 J= 1 Ü=1 i=l 

où la fonction / (.) est égale à 1 si la condition (.) est vérifiée et à 0 sinon. 

L’idée du test d’indépendance du Khi-deux est de comparer le tableau de contingence 
empirique 11.4 (basé sur les observations de l’échantillon) à un tableau de contin¬ 
gence théorique que l’on obtiendrait si les deux variables Z et F étaient effectivement 
indépendantes. Si les deux tableaux sont similaires, alors on ne peut pas rejeter l’hypo¬ 
thèse nulle Ho d’indépendance. En revanche, si ces deux tableaux sont suffisamment 
différents, on rejette l’hypothèse nulle Ho d’indépendance. 


▼ Tableau 11.4 Tableau de contingence empirique 


X = a i n i,i ny n y n* = i 

X = a, n/,i n,j n iiS n x=i 

X = a k n kA n kJ n kiS n x=k 

Total tly- 1 .. Hy-y .. riy = 5 n 


Comment construire le tableau de contingence théorique sous l’hypothèse nulle d’in¬ 
dépendance? Pour cela, il faut connaître le nombre théorique, noté Nij, d’individus 
pour lesquels on devrait observer à la fois X = a, et Y = bj si les variables Z et F 
étaient effectivement indépendantes. Par définition, cet effectif théorique est égal à : 

Nij = n x Pr ((Z = a,) n (F = bj)) ( 1 1.152) 

Or, sous l’hypothèse d’indépendance, nous savons que la probabilité jointe d’observer 
Z = a, et F = bj est égale au produit des probabilités marginales (► chapitre 6) : 

Njj = n x Pr(Z = aj) x Pr(F = bj) (11.153) 

Les probabilités marginales Pr(Z = a,) et Pr (y = bj) étant inconnues, il convient de 
les estimer. Sachant qu’un estimateur convergent de la probabilité associée à un évé¬ 
nement est donné par la fréquence empirique d’apparition de cet événement, on peut 
estimer Pr (Z = a,-) et Pr(F = bj) de la façon suivante : 

Pr(Z = a,) = — Pr(F = /?;) = — (11.154) 

n x ’ n 

Ainsi, l’estimateur des effectifs théoriques N,j devient : 

— — — / \ n—i Uu— j n x ~: x Un— j 

Ni ; = nx Pr (Z = a,-) x Pr(F = b;) = n x — x — = —- — (11.155) 

v ’ n n n 
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Définition 11.23 


Un estimateur des effectifs théoriques Nj pour i = 1 et j = l,...,s est 
défini par : 


- HjT=l X fly-j 


N,i,j = 


(11.156) 


où n x= i et n y -j désignent respectivement le nombre d’individus dans l’échantillon 
pour lesquels X = a, et F = bj, et n correspond à la taille de l’échantillon. 


On obtient ainsi un tableau de contingence théorique, comme reproduit dans le ta¬ 
bleau I 1.5. 

▼ Tableau 11.5 Tableau de contingence théorique 


X — 3i A/ ij = 


n x =i x n y =i 
n 


- n x=1 x n y= j T n x=1 x n y=s 
Ni,j = - -— • A/ liS =-— n x=1 


X = a, A/,-,! = 


n x= ; x n y= i 

n 


N,j = n — X 


— o x= , x n y=s 

A/y,s =- n x=/ 


X = ak Nk,-\ = 

Total 


t1x=Ar x Oy=i 


n 


f1y=1 


A/ fc , y - 


n x=k x n y=j 


"y=i 


n x-k x n y=s 

A/ fciJ = --- AW 


'y=î 


Remarque : Par construction, les sommes des colonnes et des lignes du tableau de 
contingence théorique correspondent à celles du tableau de contingence empirique : 

s k 

^ Ni.j = n x -i et ^ Ni j = n y= j. 

;=i 1=1 

Comment comparer ces deux tableaux de contingence et conclure quant au rejet ou 
non de l’hypothèse nulle H {) ? On utilise pour cela le test d’indépendance du khi- 
deux dont la région critique et la statistique de test sont définies de la façon suivante. 


Définition 11.24 

La statistique de test d’indépendance du khi-deux, notée D n , est définie par : 


k S 


1=1 7=1 


(nsj - Njj) 2 
Nij 


(11.157) 


Sous l’hypothèse nulle d’indépendance, la statistique de test D n admet une distri¬ 
bution exacte du khi-deux à (k — 1) X (s - 1) degrés de liberté : 

Al ~* 2 ((*-1)x(5-1)) (11.158) 

Ho 
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L’idée de la statistique du khi-deux est de mesurer la distance entre les effectifs empi¬ 
riques «, j et les effectifs théoriques estimés N,j pour les k x s cases des tableaux de 
contingence, c’est-à-dire pour i = 1 et j = 1 Le carré permet que les écarts 
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négatifs ne compensent pas des écarts positifs. La normalisation par Nij permet que 
la statistique de test ne diverge pas. Sous H 0 , cette statistique suit une loi du khi-deux 
à (k - 1) X (x - 1) degrés de liberté, car bien évidemment les effectifs théoriques ne 
sont pas indépendants, puisque leur somme sur X ou sur Y est égale à la taille d’échan¬ 
tillon n. C’est pour cela que l’on ajuste les degrés de liberté en enlevant une unité aux 
dimensions k et s. La région critique du test est alors la suivante. 

DéünitiQoJL2_5 

La région critique du test d’indépendance du khi-deux pour un niveau de risque 
a est définie par : 

W = [x,y : D n (x,y) > G~ d l (1 - a)} (11.159) 

où D„ (x,y) désigne la réalisation de la statistique D n et G a (.) est la fonction de 
répartition de la loi du khi-deux à d = {k - 1) X (5 - 1) degrés de liberté. 
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Ainsi, si la réalisation de la statistique du khi-deux est supérieure au fractile à 
100 X (1 - a) % de la loi du khi-deux à (k - 1 ) X (,v - 1) degrés de liberté, on rejette 
l’hypothèse nulle d’indépendance pour un seuil de risque a. En effet, cela signifie que 
la statistique du khi-deux est trop importante par rapport au seuil critique, c’est-à-dire 
que la distance entre les effectifs empiriques et les effectifs théoriques est elle-même 
trop grande sur, au moins, l’une des kx s classes. On doit donc rejeter Ho. Appliquons 
ce test dans le cadre d’un exemple d’étude marketing. 

Exemple 

Une entreprise souhaite analyser l’impact d’une campagne marketing suivant les trois canaux 
de diffusion utilisés : emailing, courriers et appels téléphoniques. Pour cela, elle dispose d’un 
échantillon de 1 500 clients ayant été contactés par l’un des trois médias, représenté par le 
tableau de contingence 1 1 .6. 

▼ Tableau 11.6 Tableau de contingence empirique 


Montant \ Média 

Emailing 

Courriers 

Appels 

Total i| 

50-100 euros 

220 

200 

50 

470 

100-200 euros 

140 

250 

100 

490 

plus de 200 euros 

140 

50 

350 

540 

Total 

500 

500 

500 

1 500 


Ce tableau s’interprète de la façon suivante : par exemple, 220 clients contactés par mail ont 
acheté en moyenne entre 50 et 100 euros de produits. On souhaite tester l’indépendance entre 
le montant moyen des achats (variable X) et le média (variable Y) au seuil de risque de 10 %. 
Pour ce faire, construisons le tableau de contingence théorique obtenu sous l’hypothèse nulle 
d’indépendance à partir des effectifs théoriques estimés : 


îî «>=; x n y=i 
'i'j ~ 


(11.160) 


Par exemple, l’effectif théorique des consommateurs ayant été contactés par emailing et ayant 
consommé entre 50 et 100 euros est égal à : 


A 


.1=50/100 ,email ~ 


hv=50/l00 X fly=eituiil 470 X 500 

n = 1500 


= 156,66 


(11.161) 
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De la même façon, l’effectif théorique des consommateurs ayant été contactés par email et 
ayant consommé entre 100 et 200 euros est égal à : 


N„ 


100/200 ,email — 


«<-=100/200 X Hy=email 490 X 500 


= 163,33 


(11.162) 


n 1 500 

En répétant cette procédure pour les k x s = 3 x 3 = 9 configurations possibles pour X et Y, 
on obtient le tableau de contingence théorique 11.7. 


▼ Tableau 11.7 Tableau de contingence théorique 


Montant \ Média 

Emailing 

Courriers 

Appels 

Total | 

50-100 euros 

156,66 

156,66 

156,66 

470 

100-200 euros 

163,33 

163,33 

163,33 

490 

plus de 200 euros 

180 

180 

180 

540 

Total 

500 

500 

500 

1 500 


La comparaison de ces deux tableaux de contingence se fait sur la base de la statistique du 
khi-deux. La réalisation de la statistique est égale à : 


D„ (x,y) = 


i= 1 7=1 


(riij - Njj) 2 

Aj 


(11.163) 


( 220 - I56,66) 2 


+ .. 


(350- 180) 2 
180 


(11.164) 

(11.165) 


156,66 
= 447,42 

La région critique du test pour un niveau de risque a = 10 % est définie par : 

W= (x,y: D„(.r,i/)>G4 I (0,90)} (11.166) 

où G 4 (.) est la fonction de répartition de la loi du khi-deux à (3 - 1) X (3 - 1) = 4 degrés de 
liberté. Sachant que Gf (0,90) = 7,77, il vient : 

W = {x,y : D n (x,y) > 7,77} (11.167) 


La réalisation de la statistique du khi-deux, égale à 447,42, appartient à la région critique. Par 
conséquent, on rejette l’hypothèse nulle d’indépendance entre le montant moyen des achats 
et le média pour un seuil de risque de 10 %. Cette conclusion confirme l’intuition que l’on 
pouvait avoir après avoir comparé les deux tableaux de contingence qui sont fort différents, 
surtout pour ce qui concerne les clients contactés par appel téléphonique. 


Un des problèmes du test d’indépendance du khi-deux est que la statistique de test 
tend à être dégénérée lorsque l’effectif théorique d’une classe est nul ou très faible. 
Imaginons par exemple que pour la modalité a\ de la variable X et la modalité b\ de 
la variable Y, l’effectif théorique soit nul. Le. /Vjj = 0. Dans ce cas, la statistique de 
test du khi-deux tend vers l’infini, puisque l’on divise l’un des éléments de la somme, 
i.e. (nqi — tVi , 1 ) 2 /tVi , 1 par zéro. Le même problème se pose lorsque l’effectif théorique 
est non nul, mais très faible. Le fait de diviser («,-j - /V,j ) 2 par un effectif théorique 
Nij proche de zéro induit que la réalisation de la statistique de test est très élevée. On 
a alors tendance à rejeter l’hypothèse nulle d’indépendance, et cela juste en raison de 
la faiblesse des effectifs théoriques de cette classe. 
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Remarque : Plusieurs auteurs ont proposé différents critères pour savoir si le test 
d’indépendance du khi-deux est valide. Une règle simple consiste à vérifier que pour 
toutes les classes les effectifs théoriques sont supérieurs à 5, c’est-à-dire que pour tout 
i = 1 et j = 1 on a N,j > 5. Dans le cas contraire, il convient de regrouper 
les classes sur X et/ou sur Y, de sorte à vérifier cette condition avant d’appliquer le 
test d’indépendance. 

WZWM Tests d'adéquation du khi-deux 

Définition 11.26 

Le test d’adéquation (ou d’ajustement) du khi-deux permet de tester si des 
observations (xi,...,x„) d’une variable aléatoire X sont issues d’une distribution 
que l’on spécifie. Les hypothèses nulle et alternative de ce test sont respectivement 
définies par : 

Ho:X~D(0) contre H| : X ne suit pas la loi D (8) (11.168) 

où D(i9) désigne une distribution paramétrique de paramètre 6. 
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Par exemple, l’hypothèse nulle d’un test d’adéquation peut être Ho : X ~ P (A), où 
P (A) désigne une loi de Poisson de paramètre A, ou bien Ho : X ~ N (m,cr 2 ). Le test 
d’adéquation du khi-deux peut en effet s’appliquer à des lois discrètes ou à des lois 
continues/ 

Le test d’adéquation est basé sur un tableau de répartition empirique des effectifs de 
l’échantillon (x\,...,x n ). On suppose que la variable X admet s modalités distinctes, 
notées a\,...,a s . Soit pour i = l,...,s, le nombre d’individus dans l’échantillon 

S 

pour lesquels on observe X = a,-, avec par définition ^ n t = n. On obtient ainsi un 

i= I 

tableau de répartition empirique similaire au tableau 11.8. 


▼ Tableau 11.8 Tableau de répartition empirique 


Variable X 
Effectifs empiriques 


X = a s Total 

n s n 


L’idée du test d’ajustement du khi-deux est de comparer ce tableau de répartition em¬ 
pirique (basé sur les observations de l’échantillon) à un tableau de répartition théorique 
que l’on obtiendrait si la variable X avait effectivement une distribution D. Si les deux 
tableaux sont quasiment identiques, alors on ne peut pas rejeter l’hypothèse nulle Ho 
d’adéquation de la loi de X à D. En revanche, si les deux tableaux diffèrent, on rejette 
l’hypothèse nulle Ho d’adéquation. 

Comment construire le tableau de contingence théorique sous l’hypothèse nulle d’adé¬ 
quation ? Pour cela, il faut connaître le nombre théorique, noté AT;, d’individus pour 
lesquels on devrait observer X = a, si la variable X avait effectivement une distribu¬ 
tion D. Par définition, cet effectif théorique est égal à : 

Nj = nx Pr (X = aï) (11.169) 

3 Dans ce dernier cas, on découpe l'ensemble des valeurs que peut prendre X en s classes. 
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où Pr(X = a-,) désigne la probabilité théorique associée à la loi D($). A partir des 
effectifs N, pour i = 1 ,...,5, on obtient un tableau de répartition théorique comme 
reporté dans le tableau 11.9. 


▼ Tableau 11.9 Tableau de répartition théorique 


Variable X 
Effectifs théoriques 


X = a, X = a, 

N , Ni 


X = a s Total 

N s n 


Remarque : Par construction, la somme des effectifs théoriques sur toutes les moda- 

S 

lités correspond à la taille d’échantillon, i.e. ^ /V, = n. 

1=1 

La comparaison des tableaux de répartition empirique et théorique se fait sur la base 
d’une statistique de test du khi-deux. 


Définition 11.27 

La statistique de test d’adéquation du khi-deux, notée C„, est définie par 


“ Zj N: 


1=1 


Ni 


(11.170) 


Si les paramètres 8 de la loi D(6) sont connus, la statistique C„ admet une distri¬ 
bution exacte du khi-deux à s - 1 degrés de liberté sous l’hypothèse nulle : 

C„~;y 2 ( 5 -1) (11.171) 

Ho 


La région critique du test est alors la suivante. 

Définition 11.28 

Si les paramètres 8 de la loi D(0) sont connus, la région critique du test d’adé¬ 
quation du khi-deux pour un niveau de risque a est définie par : 

W = {x: C B (x)>G;Vl "<*)} (11.172) 

où C n (x) désigne la réalisation de la statistique C„ et G s -\ (.) est la fonction de 
répartition de la loi du khi-deux à s - 1 degrés de liberté. 


Ainsi, si la réalisation de la statistique du khi-deux est supérieure au fractile à 100 X 
(1 - a) % de la loi du khi-deux à s - 1 degrés de liberté, on rejette l’hypothèse nulle 
Ho : X ~ D (8) pour un seuil de risque a. 

Avant d’appliquer le test d’adéquation du khi-deux, il convient de s’assurer qu’aucune 
des modalités n’est associée à un effectif théorique nul ou trop faible. Une règle simple 
consiste à vérifier que Ni > 5 pour i = 1 Dans le cas contraire, on regroupe 
certaines classes de sorte à vérifier cette condition. 
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Exemple 

Afin d’ajuster au mieux la gestion du personnel des gares de péage, une société d’autoroute 
souhaite modéliser le nombre de voitures, noté X, se présentant à un péage par tranche de 
30 minutes. On souhaite tester si la variable aléatoire X admet une distribution de Poisson de 
paramètre A = 2, pour un niveau de risque de 5 %. On dispose pour cela d’un échantillon de 
100 relevés consécutifs durant lesquels on a compté le nombre de voitures passant le péage. 
La répartition des effectifs empiriques est donnée dans le tableau 11.10. 


▼ Tableau 11.10 Tableau de répartition empirique 


Nombre de voitures (X) 
Nombre de relevés (n,) 


1 

25 


2 

25 


3 

12 


4 5 6 7 et + Total 
10 8 4 1 100 


Ce tableau se lit de la façon suivante : lors de 15 relevés, aucune voiture ne s’est présentée 
au péage, lors de 25 relevés, une seule voiture a été décomptée, etc. Afin de tester l’hypo¬ 
thèse nulle Ho : X ~ P(2) , construisons tout d’abord le tableau de répartition des effectifs 
théoriques. On sait que si X suit une loi P ( A) , alors : 

À X 

Pr(X = x) = exp(-d) — Vx 6 N (11.173) 

x! 

Par conséquent sous H 0 , l’effectif théorique associé à la modalité X = 0 est égal à : 

2 ° 

/Vo = n x Pr(X = 0) = 100xexp(-2)x — = 13,53 (11.174) 

De la même façon, l’effectif théorique associé à la modalité X = 1 est égal à : 

2' 

A, = nxPr(X= 1) = 100xexp(-2)X — =27,06 (11.175) 

Pour la modalité «7 voitures ou plus», la probabilité Pr(X>7) est définie par 1 - 

6 

^ Pr(X = x). Par conséquent, l’effectif associé à cette classe est égal à : 

A-0 


6 

A 7+ = «-J> 6 = 100- 13,53-27,06-...- 1,20 = 0,49 (11.176) 

;=o 

On obtient ainsi tableau 11.11 donnant la répartition des effectifs théoriques sous Hq. 


▼ Tableau 11.11 Tableau de répartition théorique 

N; 13,53 27,06 27,06 18,04 9,02 3,60 1,20 0,49 100 


7 et + Total 


On constate que les modalités « 7 voitures ou plus » et « 4 voitures » ont des effectifs théo¬ 
riques trop faibles, inférieurs à 5. Après regroupement des modalités 5, 6 et 7 et +, il reste 
s = 6 modalités (► tableau 11.12). 


▼ Tableau 11.12 Effectifs empiriques et théoriques après regroupement 


Nombre de voitures (X) 

0 

1 

2 

3 

4 

5 et + 

Total 

Nombre de relevés (n,) 

15 

25 

25 

12 

10 

13 

100 

Effectifs théoriques (N,) 

13,53 

27,06 

27,06 

18,04 

9,02 

5,29 

100 


361 













Copyright © 2015 Dunod. 


Partie 3 Statistique mathématique 


La réalisation de la statistique d’ajustement du khi-deux est égale à : 


c. 


1=1 


Ni 


(15 - 13,53) (13 — 5,29) 


13,53 


5,29 


13,83 


(11.177) 


Sous Ho, la statistique C„ admet une distribution du khi-deux à 6 — 1 =5 degrés de liberté, 
i.e. le nombre de classes après regroupement moins 1. La région critique du test d’ajustement 
du khi-deux pour un niveau a - 5 % est égale à : 

W = {x : C„ (x) > Gj 1 (0,95)} (11.178) 

où G 5 (x) désigne la fonction de répartition de la loi du khi-deux à 5 degrés de liberté. On 
obtient ainsi : 

W = {x:C„(x)> 11,07) (11.179) 


La réalisation de la statistique de test, égale à 13,83, appartient à la région critique. Par 
conséquent, on rejette l’hypothèse nulle selon laquelle la variable X suit une loi de Poisson 
de paramètre 2, pour un seuil de significativité de 5 %. 


Dans le cas où les paramètres 6 sont inconnus, il convient de les estimer. Si l’on sup¬ 
pose que la loi D dépend de k paramètres, tels que 6 = {d\ ,...,0j c ) T , la région critique 
du test devient : 

Définition 11.29 

Si les k paramètres Q de la loi sont estimés, la statistique de test C„ admet 
une distribution exacte du khi-deux à s - k - 1 degrés de liberté sous l’hypothèse 
nulle : 

C n ~x 2 (s-k- 1) (11.180) 

Ho 

où s désigne le nombre de modalités de X après regroupement. La région critique 
du test d’adéquation du khi-deux pour un niveau de risque a est alors définie par : 

W = {x : C n (x) > G;V] O - a)} (11.181) 

où C„ (x) désigne la réalisation de la statistique C n et G x -k-\ (.) est la fonction de 
répartition de la loi du khi-deux à s - k - 1 degrés de liberté. 
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2 questions à 

Yoann Grondin 

Analyste Statistique, EDF 
Commerce 



Quel est votre parcours professionnel et votre mission 
actuelle chez EDF ? 

À l'issue de mes études universitaires et de mon stage au 
sein de la direction marketing d'AXA, j'ai débuté ma carrière 
professionnelle en 2008 dans le département marketing de 
Bouygues Télécom. En 2011, j'ai été recruté comme analyste 
confirmé au sein du pôle « Analyse connaissance client » de 
la direction des services informatiques d'EDF Commerce. Je 
suis en charge de répondre aux problématiques métier de la 
direction EDF Commerce, principalement sur deux sujets que 
sont la digitalisation de la relation client (analyse des 
parcours multicanaux, score d'appétence au canal 
Internet... ) et les départs à la concurrence (modèles de 
prévision, de durée de vie...) en apportant mon expertise 
statistique. 

Quels sont les tests statistiques que vous utilisez dans 
votre activité au sein d'EDF ? Pouvez-vous nous 
expliquer leur utilité ? 

L'utilisation des tests statistiques se pratique dans deux 
cadres d'analyse distincts. D'une part, lors de réalisation de 
scores ou d'autres méthodes de classification, les tests de 
liaison entre variables sont indispensables pour détecter 
rapidement les dépendances. On utilise ainsi les coefficients 
de corrélation de Pearson et des rangs de Spearman selon 
qu'il s'agisse de variables continues, discrètes ou ordinales, le 
test du khi-deux pour les variables nominales ou encore les 
tests de variance. D'autre part, dans le cadre des campagnes 
marketing, que ce soit pour la définition des cibles en amont 
ou pour l'évaluation de l'efficacité de la campagne en aval, 
les tests de comparaison de moyennes et de proportions 
sont fréquemment utilisés. ■ 
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Les points clés 

Un test statistique est une règle de décision relative à une hypothèse nulle, établie 
sur la base d’un échantillon et permettant de contrôler les risques associés à la 
décision. 


Le risque de première espèce est le risque de rejeter à tort l’hypothèse nulle. 


La puissance d’un test correspond à la probabilité de rejeter l’hypothèse nulle 
lorsqu’elle n’est pas valide dans la population. 


La région critique correspond à l’ensemble des échantillons pour lesquels la réa¬ 
lisation de la statistique de test conduit au rejet de l’hypothèse nulle. 


La conclusion d’un test est une décision de rejet ou de non-rejet de l’hypothèse 
nulle pour un certain seuil de significativité (ou niveau). 


La p-value associée à une réalisation d’une statistique de test est le plus petit 
niveau pour lequel on peut rejeter l’hypothèse nulle. 
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EVALUATION 

► Corrigés sur www.dunod.com 


QCM 

Pour chacune des questions suivantes, indiquez si les af¬ 
firmations sont vraies ou fausses (il peut y avoir plu¬ 
sieurs réponses vraies pour chaque question). 

Règle de décision d'un test statistique 

a. La conclusion d’un test peut être le rejet de l’hypo¬ 
thèse alternative. 


b. Un test de niveau 5 % a une valeur critique plus éle¬ 
vée qu’un test de niveau 10 %. 

c. Le niveau d’un test est fixé par l’utilisateur. 

d. La puissance correspond à la probabilité de rejeter 
l'hypothèse nulle alors que l’hypothèse alternative 
est vraie dans la population. 

e. La puissance d’un test non biaisé tend vers l’unité 
lorsque la taille d’échantillon tend vers l’infini. 

Test paramétrique et lenime de Nevman-Pearson 


b. La conclusion d’un test peut être l’acceptation de 
l’hypothèse alternative. 

c. La conclusion d’un test peut être l’acceptation de 
l’hypothèse nulle. 

d. La conclusion d’un test peut être le rejet ou le non- 
rejet de l'hypothèse nulle pour un certain niveau de 
significativité. 

e. Le rejet ou le non-rejet de l’hypothèse nulle ne dé¬ 
pend pas du niveau du test. 

Région critique d’un test 

a. La région critique caractérise l’ensemble des valeurs 
de la statistique de test pour lesquelles on rejette 
l’hypothèse nulle pour un niveau de risque donné. 

b. Une statistique de test est une variable aléatoire. 

c. Dans le cas d’un test paramétrique, la statistique de 
test est un estimateur du paramètre testé. 

d. La valeur critique d’un test est établie à partir de la 
distribution de la statistique de test sous l’hypothèse 
nulle. 

e. Si la réalisation de la statistique de test appartient à 
la région critique, on conclut au rejet de l'hypothèse 
nulle pour un seuil de significativité donné. 

Niveau et puissance d’un test 

a. Le niveau d’un test correspond à la probabilité de 
rejeter l’hypothèse alternative lorsque l’hypothèse 
nulle est vraie. 


a. Dans le cas d’un test d’une hypothèse simple contre 
une hypothèse simple, le lemme de Neyman-Pearson 
permet de déterminer la région critique du test UPP 
pour un niveau donné. 

b. Si l’on considère un test unilatéral H () : 6 = 0 Q contre 
H) : 0 < #o, la région critique du test peut être de la 
fonne W= jx : 9 (x) > c) où c est une valeur critique 
et 6 un estimateur du paramètre 6. 

c. Si l’on considère un test bilatéral du type Ho : 6 = 6o 
contre IT| : 6 ï 6 o, la région critique du test peut 
être de la forme W= (x : (){x) - 6q > c) où c est une 
valeur critique et 0 un estimateur du paramètre 0. 

d. Le lemme de Neyman-Pearson permet de déterminer 
la région critique d’un test UPP bilatéral. 

e. La région critique d’un test bilatéral de niveau a 
correspond à l’intersection des régions critiques des 
tests unilatéraux de niveau a/2. 


Sujets d'examen 

Tests paramétriques (Université d’Orléans, 
2013) 

Soit X une variable aléatoire positive distribuée selon 
une loi de Rayleigh de paramètre cr 2 . Sa fonction de den¬ 
sité est définie par : 

/x(x;cr 2 ) =-^exp(-^j Vx e R + (11.182) 
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Partie 3 Statistique mathématique 


On souhaite tester la valeur de tr 1 à partir d’un 
«-échantillon (X[,...,X„) de taille « = 100, de variables 
i.i.d. de même loi que X. On cherche ainsi à tester : 

H () : cr 2 = o-g = 2 contre H| : <x 2 = cr^ = 2,1 

(11.183) 


1. Montrer que la région critique du test UPP de niveau 
cr peut s’écrire sous la forme W = ( x\ T„ (x) > c} où c 
désigne une valeur critique et T„ (x) est la réalisation 
de la statistique de test T„, définie par : 


i=l 


(11.184) 


2. Déterminer la valeur critique c du test UPP pour un 
niveau cr = 5 %, sachant que pour un échantillon de 
grande taille, on admet que : 

, - 4 ' 

1 n 


N\cr\ — 
n 


(11.185) 


3. Déterminer la puissance du test de niveau a = 5 %. 

4. Montrer que le test est convergent. 

5. Pour un échantillon d’observations, on obtient 

n 

y xf = 2 070. Que conclure pour un seuil de si- 

;=i 

gnificativité de 5 % ? 

6. Quelle est la région critique du test unilatéral H 0 : 
cr 2 = 2 contre H| : cr 2 > 2 de niveau cr = 5 % ? 

7. Quelle est la région critique du test bilatéral H 0 : 
a 2 = 2 contre H| : cr 1 t 2 de niveau cr = 5 % ? 


Tests paramétriques (HEC Lausanne, 2014) 

On considère un échantillon (X|,...,X„) de variables 
aléatoires continues i.i.d. de même loi que X, où X est 
définie sur le support X (O) = [0,c] et admet une fonc¬ 
tion de densité égale à : 

VxeX(Q) (11.186) 

On suppose que la borne c est connue et que le pa¬ 
ramètre 9 est un paramètre positif inconnu que l’on 
cherche à estimer. 


1. Écrire la log-vraisemblance associée à l’échantillon 

( X\ ,... iX n ). 

2. Montrer que l’estimateur 9 du maximum de vraisem¬ 
blance est défini par : 


1 \ 1 

9 = ln(c) - - V ln (Xi) 
n t— 1 

i=i 


(11.187) 


3. On admet que E (In (X,)) = in(c) - 0. Montrer que 
l’estimateur 0 est convergent. 


4. Déterminer la distribution asymptotique de l’estima¬ 
teur 0. 


5. On considère le test : 


H 0 : 6 = 0o contre H| : 0 = 0\ (11.188) 

avec 0\ < 6q. Montrer que la région critique du test 
UPP de niveau a a une forme générale du type : 

W = {x:?(x)</t} (11.189) 

où A est une constante déterminée par le niveau a 
et 6(x) désigne la réalisation de l’estimateur 0 pour 
l’échantillon (x\,...,x n ). 

6. On admet que taille d’échantillon n est suffisamment 
importante pour supposer que : 



où 0 désigne la vraie valeur du paramètre. Détermi¬ 
ner la valeur critique A du test UPP de niveau cr. 

7. On considère le test unilatéral : 


H 0 : 6 = 9q contre H| : 9 < 9q (11.191) 

Déterminer la région critique du test UPP de niveau 
a. 

8 . On considère le test bilatéral : 

H 0 : 9 = 9 0 contre H| : 9 t 9 0 (11.192) 

Déterminer la région critique du test de niveau a. 

9. Montrer que le test de la question 8 est convergent. 
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Corrigés 


CORRIGÉS 


Les corrigés détaillés des QCM et de l'ensemble des autres exercices sont disponibles sur 
www.dunod.com, sur la page de l'ouvrage. 


• Chapitre 1 

a. Faux b. Vrai c. Faux d. Vrai e. Vrai 
a. Faux b. Faux c. Faux d. Vrai e. Vrai 
a. Vrai b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Faux c. Faux d. Faux e. Vrai 
a. Faux b. Vrai c. Faux d. Faux e. Vrai 

• Chapitre 2 

a. Faux b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Faux c. Vrai d. Vrai e. Vrai 
a. Faux b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Faux c. Faux d. Faux e. Vrai 
a. Vrai b. Vrai c. Faux d. Faux e. Vrai 

• Chapitre 3 

a. Vrai b. Faux c. Faux d. Vrai e. Vrai 
a. Faux b. Faux c. Faux d. Vrai e. Vrai 
a. Faux b. Faux c. Vrai d. Faux e. Faux 
a. Faux b. Faux c. Vrai d. Faux e. Faux 
a. Faux b. Faux c. Vrai d. Faux e. Faux 

• Chapitre4 

a. Faux b. Faux c. Faux d. Vrai e. Faux 
a. Faux b. Faux c. Vrai d. Faux e. Vrai 
a. Faux b. Vrai c. Vrai d. Faux e. Vrai 
a. Faux b. Faux c. Faux d. Faux e. Vrai 
a. Faux b. Faux c. Faux d. Vrai e. Faux 

• Chapitre 5 

a. Vrai b. Vrai c. Vrai d. Faux e. Faux 
a. Vrai b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Vrai c. Vrai d. Vrai e. Faux 
a. Faux b. Vrai. c. Vrai d. Vrai e. Faux 


• Chapitre 6 

a. Faux b. Faux c. Vrai d. Vrai e. Faux 
a. Vrai b. Faux c. Faux d. Vrai e. Faux 
a. Faux b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Faux c. Vrai d. Vrai e. Vrai 

• Chapitre 7 

a. Faux b. Vrai c. Vrai d. Vrai e. Vrai 
a. Vrai b. Faux c. Faux d. Faux e. Vrai 
a. Vrai b. Faux c. Vrai d. Vrai e. Vrai 
a. Faux b. Vrai c. Faux d. Vrai e. Faux 

• Chapitre 8 

a. Faux b. Vrai c. Vrai d. Vrai e. Faux 
a. Faux b. Vrai c. Faux d. Faux e. Vrai 
a. Faux b. Vrai c. Vrai d. Faux e. Vrai 
a. Vrai b. Vrai c. Vrai d. Vrai e. Faux 

• Chapitre 9 

a. Faux b. Faux c. Vrai d. Faux e. Vrai 
a. Vrai b. Vrai c. Faux d. Faux e. Faux 
a. Vrai b. Faux c. Vrai d. Vrai e. Faux 
a. Vrai b. Vrai c. Vrai d. Vrai e. Faux 

• Chapitre 10 

a. Vrai b. Faux c. Faux d. Faux e. Vrai 
a. Faux b. Vrai c. Faux d. Vrai e. Faux 
a. Vrai b. Vrai c. Vrai d. Vrai e. Faux 
a. Faux. b. Faux c. Vrai d. Faux e. Faux 

• Chapitre 11 

a. Faux b. Faux c. Faux d. Vrai e. Faux 
a. Vrai b. Vrai c. Faux d. Vrai e. Vrai 
a. Faux b. Faux d. Vrai e. Faux 
a. Vrai b. Faux c. Faux d. Faux e. Faux 
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Corrigés 


CORRIGÉS 


I Chapitre 1 

Variables discrètes et variables continues 

a. Faux, une variable discrète peut aussi prendre des valeurs 
négatives. 

b. Vrai. 

c. Faux, le chiffre d’affaires est une variable continue. 

d. Vrai. 

e. Vrai. 

Caractères et modalités 

a. Faux. Par exemple, le caractère « sexe » n’a que deux mo¬ 
dalités. 

b. Faux, les modalités doivent être incompatibles. 

c. Faux, car si la taille est bien un caractère quantitatif, l’état 
matrimonial est un caractère qualitatif. 

d. Vrai. 

e. Vrai. 

Graphiques et centre de classe 

a. Vrai. 

b. Vrai. 

c. Faux, il s’agit de la courbe des fréquences cumulées. 

d. Faux, il est nécessaire de corriger les amplitudes afin que 
l’aire de chaque rectangle composant l’histogramme soit 
bien proportionnelle à l’effectif (ou la fréquence). 

e. Vrai. 

Le mode 

a. Faux, il s’agit de la médiane. 

b. Faux. 

c. Faux, il s’agit de la moyenne. 

d. Faux, le mode est une caractéristique de tendance centrale. 

e. Vrai. 

Étude de la répartition des notes : 18 # 15, 8, 12 f 8, 
15, 4 

a. Faux, il convient de pondérer par les effectifs : 
18 + 15x2 + 8x2+12 + 4 
-= 11,42. 

7 

b. Vrai. 

c. Faux, la distribution est bimodale, les deux valeurs du mode 
étant 8 et 15. 

d. Faux, l’étendue est égale à 18 - 4 = 14. 

e. Vrai, le moment simple d’ordre 1 étant égal à la moyenne. 


▼ Tableau 1.1 Location de voitures 


Classes 

n 

Xi 

f, 

Fi 

n,Xj 

rijxf 

[0,10[ 

2 

5 

0,01 

0,01 

10 

50 

[10,20[ 

19 

15 

0,11 

0,13 

285 

4275 

[20,30[ 

28 

25 

0,17 

0,30 

700 

17 500 

[30,40[ 

54 

35 

0,33 

0,62 

1 890 

66150 

[40,50[ 

31 

45 

0,19 

0,81 

1 395 

62 775 

[50,60[ 

21 

55 

0,13 

0,93 

1 155 

63 525 

[60,70[ 

11 

65 

0,07 

1,00 

715 

46475 

Total 

166 


1 


6150 

260 750 


1. 

2 . 

3. 

4. 

5. 

6 . 


La variable étant groupée en classes, il s’agit d’une variable 
continue. 

Les résultats sont reportés dans le tableau 1.1, jc/ désignant 
les centres de classes, f les fréquences et F/ les fréquences 
cumulées. 

Il est possible de représenter la série au moyen d’un histo¬ 
gramme. 

La classe modale est celle pour laquelle la fréquence est la 
plus élevée, il s’agit donc de la classe [30,40[. On peut cal¬ 
culer la valeur du mode au moyen de la relation (1.14) : 


Mode = 30 + 10 x 


0,33-0,17 

(0,33 -0,17)+ (0,33-0,19) 


35,42 


La valeur du mode est donc égale à 35 voitures. 

La moyenne peut être calculée à l’aide de l’équation (1.24) : 


x = 


x 6 150 = 37,05 

166 


En moyenne, 37 voitures sont louées par jour. 

On utilise la colonne des fréquences cumulées afin de repé¬ 
rer la classe médiane, il s’agit ainsi de la classe [30,40[. La 
valeur précise de la médiane est obtenue à l’aide de l’équa¬ 
tion (1.17): 


M 


: 30 + — x [0,5 
0,33 


0,30] 


La valeur médiane est ainsi égale à 36,30 : il y a autant 
de sociétés louant moins de 36 voitures que de sociétés en 
louant plus. 

On calcule F écart-type corrigé : 


5 , = 


\N 


i N 

—£"■-*?- 


N 

N- f 


Caractéristiques d'une distribution 

Le tableau 1.1 reporte les différents calculs nécessaires pour 
répondre aux diverses questions posées. 


S, 


1 


166- 1 


x 260750 


166 

166- 1 


x 37,05 2 


L’écart-type est ainsi égal à 14,12 voitures. 
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Statistique et probabilités 


Sujet d'examen 


T Tableau 1.2 Répartition des salariés par tranche de salaire 


Classes 
de salaires 







DjXj 

5 

Z 

1=1 

n,Xj 


Xj 





Yu n <*< 

i=i 

Z n ' x ' 

i=i 

[1200,1400[ 

3 

1 300 

200 

0,015 

0,015 

3 900 

0,011 


0,011 

[1400,1600[ 

6 

1 500 

200 

0,03 

0,045 

9 000 

0,027 


0,038 

[1600,1800[ 

182 

1 700 

200 

0,91 

0,955 

309400 

0,909 


0,947 

[1800,2000[ 

5 

1 900 

200 

0,025 

0,98 

9 500 

0,028 


0,975 

[2000,2200[ 

4 

2100 

200 

0,02 

1 

8400 

0,025 


1 

Total 

200 



1 


340200 

i 




1. L’effectif total de l’entreprise est donné par : 

5 

N = ^ «, = 3 + 6+182 + 5 + 4 = 200 
1=1 


2 . Les valeurs demandées sont reportées dans le tableau 1.2. 

3. La moyenne est donnée par : 


,= -x3 4 ° 20 ° : 


1701 


Le salaire moyen au sein de l’entreprise considérée est de 
1701 euros. 

4. La classe modale est la classe pour laquelle l’effectif (ou la 
fréquence) est le plus élevé, il s’agit en conséquence de la 
classe [1600,1800[. La valeur du mode est obtenue par la 
formule : 

Mode = ej-i + a m x -—-— 
d\ + ê?2 

où e ,-_1 désigne la valeur de l’extrémité inférieure de 
la classe modale (1600), a m l’amplitude de cette même 
classe (200), d\ la différence entre l’effectif de la classe mo¬ 
dale (182) et l’effectif de la classe précédente (6) et d 2 la dif¬ 
férence entre l’effectif de la classe modale (182) et l’effectif 
de la classe suivante (5). Dans le cas de notre entreprise, le 
mode est ainsi égal à 1 699,72 euros : 


Mode = 1 600 + 200 x 


182-6 

(182-6)+ (182-5) 


1 699,72 


5. L’étendue est donnée par la différence entre la valeur maxi¬ 
male et la valeur minimale prise par le salaire. Dans notre 
cas, les observations étant groupées par classes, l’étendue 
est égale à la différence entre l’extrémité supérieure de 
la dernière classe et l’extrémité inférieure de la première 
classe, soit : 


où ei-i est l’extrémité inférieure de la classe médiane 
(1600), cii l’amplitude de la classe médiane (200), f la fré¬ 
quence de la classe médiane (0,91) et F,-_i désigne la fré¬ 
quence cumulée de la classe au dessus de la classe médiane 
dans le tableau (0,045). D’où : 

200 

M= 1 600 + — x [0,5 - 0,045] = 1700 

La médiane est ainsi égale à 1 700 euros : dans l’entre¬ 
prise considérée, il y a autant de salariés gagnant moins de 
1 700 euros par mois que de salariés percevant un salaire 
mensuel supérieur à 1 700 euros. 

7. Trois caractéristiques de tendance centrale ont été calcu¬ 
lées : la moyenne égale à 1 701 euros, le mode égal à 
1 699,72 euros et la médiane valant 1 700 euros. Ces trois 
valeurs étant très proches, on en déduit que la distribution 
des salaires au sein de l’entreprise est symétrique. 

8. La détermination de la classe médiale est similaire à celle de 
la classe médiane, le calcul étant basé non plus sur les seuls 
effectifs n\ mais sur le produit représentant la masse sa¬ 
lariale. Par un raisonnement identique et au regard des va¬ 
leurs obtenues dans la dernière colonne du tableau 1.2, on 
en déduit que la classe médiale est la classe [1600,1800[. 
De même, la valeur de la médiale, notée Ml et exprimée 
en euros, est donnée par : 

Ml = 1 600 + x [0,5 - 0,038] = 1 701,65 
0,909 


9. On constate que les valeurs de la médiane et de la médiale 
sont très proches. Plus précisément, on a : 

Ml - M 1701,65 - 1700 

-= ---= 0,00 165 

Etendue 1000 

Le rapport calculé est ainsi très proche de zéro, l’écart entre 
la médiale et la médiane étant très faible par rapport à 
l’étendue. Cela correspond à une concentration nulle des 
salaires, c’est-à-dire à une parfaite équipartition. Ce résul¬ 
tat était prévisible au regard des données figurant dans le 
tableau 1.13 : la distribution des observations fait en effet 
ressortir que la moyenne est très proche de 1 700 euros, té¬ 
moignant d’une très faible dispersion des salaires autour du 
salaire moyen. 


I Chapitre 2 

Distributions marginales et conditionnelles 


Etendue = 2 200 — 1 200 = 1 000 

L’étendue des salaires au sein de l’entreprise considérée est 
ainsi égale à 1 000 euros. 

6 . Au regard des valeurs prises par les fréquences cumulées, 
on constate que la proportion de salariés gagnant moins de 
1 600 euros est de 4,5 % et que celle touchant moins de 
1 800 euros est de 95,5 %. On en déduit que la valeur de 
la médiane est comprise entre 1 600 et 1 800 euros et que 
la classe médiane est la classe [1600,1800[. La valeur de la 
médiane est donnée par : 


a. Faux, la distribution marginale d’une variable ne tient 
compte que de l’information contenue dans cette variable. 

b. Vrai. 

c. Faux, la somme des fréquences, quel que soit le type de 
fréquence considéré, est toujours égale à 1. 

d. Faux, il existe toujours une relation entre fréquences mar¬ 
ginales et conditionnelles (► équation (2.15)). 

e. Vrai. 

Liaison entre deux variables 


M = e,-_i + -j x [0,5 - 


■Fi. i] 


Faux, il s’agit d’un cas de corrélation négative. 
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Corrigés 


b. Faux, deux variables corrélées négativement évoluent en 
sens contraire. 

c. Vrai. 

d. Vrai. 

e. Vrai. 

Droite de régression et ajustement 

a. Faux. 

b. Vrai. 

c. Faux, il s’agit de minimiser la somme des carrés des écarts 
et non la somme des écarts. 

d. Faux, b est l’ordonnée à l’origine et a est la pente de la 
droite de régression. 

e. Vrai. 

Coefficient de corrélation linéaire 

a. Faux, il s’agit d’une corrélation négative. 

b. Faux, un coefficient de corrélation est compris entre -1 et 
1. 

c. Faux, il ne faut pas confondre corrélation et causalité. 

d. Faux, les variables peuvent être corrélées de façon non- 
linéaire. 

e. Vrai. 

Analyse de la variance et coefficient de détermina¬ 
tion 

a. Vrai. 

b. Vrai. 

c. Faux, c’est le rapport entre la variance expliquée et la va¬ 
riance totale. 

d. Faux, un coefficient de détermination est compris entre 0 
et 1. 

e. Vrai. 

Étude de la liaison taux de chômage/taux d'infla¬ 
tion 

1. La figure 2.10 montre que le nuage de points est relati¬ 
vement allongé et semble se répartir autour d’une droite 
d’allure décroissante. Cela laisse présager l’existence d’une 
liaison négative entre les deux variables. Un tel résultat est 
cohérent d’un point de vue économique en vertu de la rela¬ 
tion de Phillips selon laquelle les deux variables tendent à 
évoluer en sens contraire. 

En toute rigueur, notons que nous considérons ici une rela¬ 
tion linéaire entre le taux de chômage et le taux d’inflation 
alors que la courbe de Phillips renvoie à une relation non- 
linéaire entre les deux variables. 

2. Rappelons que la covariance entre deux variables x et y est 
donnée par : 


3. La valeur du coefficient de corrélation linéaire entre les 
deux variables est donnée par : 


r(x,y) 


Cou(x,y ) 
CxVy 


D’où : 


r(x,y ) 


-2,43 

V4"64x vrsi 


-0,92 


Le coefficient de corrélation linéaire entre le taux de chô¬ 
mage et le taux d’inflation est négatif et proche de —1. Il 
existe donc bien une relation décroissante entre les deux 
variables, conformément à la relation de Phillips. 

4. Les valeurs des coefficients de la droite de régression sont 
donnés par : 


Cov(x,y) 
= V(x) 


-2,43 

4,64 


-0,52 


et, sachant que la droite de régression passe par le point 
moyen : 


b = ÿ - ax = 4,74 + 0,52 x 6,71 = 8,23 


On en déduit donc que la droite de régression a pour expres¬ 
sion : 

y = -0,52x + 8,23 

Le coefficient de pente de la droite de régression est bien né¬ 
gatif, confirmant à nouveau la relation inverse entre le taux 
d’inflation et le chômage. La figure 2.1 reproduit l’ajuste¬ 
ment du nuage de points par cette droite de régression. 



ra 

3 


2 



°1 I I I 

4 % 6 % 8 % 10 % 


x 


taux de chômage 


▲ Figure 2.1 Ajustement du nuage de points par la droite 
de régression. 


5. On peut calculer le coefficient de détermination comme 
suit : 


Cov(x,y) 2 _ (-2,43) 

V{x)V{lj) ~ 4,64 x 1,51 


On en déduit que le pourcentage de variance expliquée par 
la régression est de 84 %. 


1 \ ' 

Cov{x,y ) = — ^ *,-{/, - xÿ 
i= 1 

D’où : 

Cov(x,y) = x 881,01 - 6,71 x 4,74 = -2,43 
La covariance est négative, comme attendu. 


Sujet d'examen 

1. Les coefficients de variation CV, exprimés en pourcentage, 
sont donnés par le rapport entre l’écart-type et la moyenne 
pour chacune des trois séries. On a donc : CVeur = 
104,1565, CV DKK = 6,5569 et CVats = 5,2164. La sé¬ 
rie la plus volatile est donc la série EUR, suivie par DKK 
puis ATS. 
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Statistique et probabilités 


2. On rappelle que les coefficients de corrélation sont donnés 
par : 


r(EUR,DKK) ■■ 

r{ATS ,DKK) ■■ 


Cov(EUR,DKK ) 

EUR 0 ' DK K 

Cov(ATS,DKK ) 

ATS &DKK 


On obtient ainsi : 


r(EUR,DKK ) : 


r(ATS ,DKK) -- 


(-37,3106) - (-0,1227) x 1,8942 

' 0,1278x0,1242 

: 0,9763 

pp-p(817,2116) - 2,4998 x 1,8942 


0,1304x0,1242 


: 0,9947 


e. Si l’on multiplie par 10 toutes les valeurs observées 
des variables EUR et DKK, cela n’a aucun impact sur la 
pente de la droite de régression. En effet, soient : DKK' t = 
10 x DKK, et EUR J = 10 x EUR,. On peut écrire : 

DKK ; EUR'. 

-- = aX - L + b 

10 10 

soit encore : 


DKK\ =ax EUR\ + 10 b 

Si l’on ajoute 10 à chacune des valeurs observées des deux 
variables, le coefficient de la pente de la droite de régres¬ 
sion n’est pas modifié. Posons : DKK/ = 10 + DKK, et 
EUR" = 10 + EUR,. On a : 

DKK'/ - 10 = a(EUR/ - 10) + b 

soit encore : 

DKK/ = a X EUR/ + 10 - 10a + b 


On constate que les deux coefficients de corrélation sont 
positifs : les deux variables considérées évoluent dans le 
même sens. Ils sont en outre très proches de 1, ce qui té¬ 
moigne d’une forte corrélation entre les deux variables ; la 
corrélation la plus forte étant obtenue entre les variables 
DKK et ATS. 

3. a. L’application de la méthode des moindres carrés ordi¬ 
naires conduit aux résultats suivants : 

Cov(EUR,DKK ) 

“ ~ V(EUR) 

-L(-37,3106) - (-0,1227) x 1,8942 

“ (0.1278) 2 

= 0,9488 


b = 1,8942 - 0,9488 x (-0,1227) = 2,0106 

La droite de régression s’écrit donc : 

DKK, = 0,9488 x EUR, + 2,0106 

b. Toutes choses égales par ailleurs, une augmentation de 
1 % de EUR s’accompagne d’une hausse de 0,9488 % du 
taux de change du dollar vis-à-vis de la couronne danoise. 

c. L’équation d’analyse de la variance est donnée par : 


Variance totale = Variance expliquée 

+ Variance résiduelle (2.1) 


La variance totale est égale à 0,1242 2 et la variance rési¬ 
duelle vaut 0,1169/172 = 0,0007. On en déduit donc que la 
variance expliquée est égale à : 0,1242 2 -0,0006 = 0,0147. 
La part de la variance résiduelle dans la variance totale 
est en conséquence égale à 0,0007/0,1242 2 = 0,0454, soit 
4,54 %. 

d. Le coefficient de détermination est donné par le rapport 
entre la variance expliquée et la variance totale, soit : 


0,0147 

(0,1242) 2 


0,9530 


La variable EUR explique donc 95,30 % des variations du 
taux de change du dollar vis-à-vis de la couronne danoise. 


4. On sait que la variance totale est égale à 0,1242 2 et que 
la variance expliquée vaut 0,0153. On en déduit, d’après 
l’équation d’analyse de la variance, la valeur de la va¬ 
riance résiduelle : 0,1242 2 - 0,0153 = 1,2564.10 4 . La 
somme des carrés des résidus est en conséquence égale à : 
172 x 1,2564.10 4 = 0,0216. Le coefficient de détermina¬ 
tion est quant à lui donné par : 


R 2 


0,0153 

(0,1242) 2 


= 0,9919 


On en déduit que la variable ATS explique 99,19 % de la 
variation de DKK. 

5. Les deux modèles ayant la même variable expliquée, DKK, 
il est possible de les comparer. Le coefficient de détermi¬ 
nation du deuxième modèle est supérieur à celui du pre¬ 
mier modèle. La variance résiduelle est plus faible dans le 
deuxième modèle. Au regard de ces résultats, on retiendra 
donc le deuxième modèle pour expliquer les fluctuations de 
DKK. 


I Chapitre 3 

Propriétés sur les indices 

a. Vrai. 

I 9 

b. Faux. On a en effet : / 9 = . 

t/f /V 

V/o 

c. Faux, aucun des deux indices ne vérifie ces propriétés. 

d. Vrai. 

e. Vrai. 


Indices synthétiques 

a. Faux, il s’agit de l’indice des prix de Laspeyres. 

b. Faux, l’indice de Paasche est une moyenne harmonique. 

c. Faux, les indices élémentaires doivent être basés à la même 
date. 

d. Vrai, la structure du panier est celle de la date courante. 

e. Vrai, la structure du panier est celle de la date de référence. 
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Corrigés 


Évolution du prix d'un quotidien de la presse écrite 

a. Faux. 

b. Faux. 

c. Vrai. En effet, en utilisant les propriétés de circularité et de 
réversibilité, on a : 


_ ^2013/2000 

'2013/2005 — '2013/2000 x ' 2000/2005 - - - 

'2005/2000 

d. Faux. 

e. Faux. 


1,30 

1,50 


: 0,867 


2. L’indice élémentaire des quantités s’obtient comme suit : 


v<?) = 


‘Il 

<?0 


40 

30 


1,333 


et montre que la consommation de pommes de notre mé¬ 
nage s’est accrue de 33,3 % entre 2010 et 2013. 

3. Le tableau 3.1 fournit les calculs nécessaires à l’obtention 
des indices des prix de Laspeyres et de Paasche donnés par 
les relations suivantes : 


Évolution d'un indice de prix 

a. Faux. 

b. Faux. 

c. Vrai. 

d. Faux. 

e. Faux. 

Formule d'un indice synthétique 

a. Faux. 

b. Faux. 

c. Vrai. 

d. Faux. 

e. Faux. 


L>)= « = 86 = i i089 
//o VF/ _> n i n i 79 ’ 


1 1/0^ 


2 >Î)PÔ 

ZiPW, = _ 

ZiPo4 121 ’ 5 


134,5 


1,107 


Il est également possible d’effectuer les calculs à l’aide des 
coefficients de pondération tableau 3.2) : 


- Pour l’indice de Laspeyres, rappelons que les poids sont 
donnés par : 


PWo 

ï'PWo 


Indices élémentaires, synthétiques et effet qualité 

▼ Tableau 3.1 Consommation de pommes d'un ménage : 
calcul des indices 


D’où : 


L*(p) = 2,}a‘ 0 4 = 1,089 


Po 


Variété / 

pô 

PÔ 

PÔ 

PÔ PÔ Po P'tPÔ 

PÔP't 

P'tPÔ 

Golden 

2,8 

10 

3,1 

15 

28 46,5 

42 

31 

Pink Lady 

3,9 

5 

4,4 

15 

19,5 66 

58,5 

22 

Royal Gala 

2,1 

15 

2,2 

10 

31,5 22 

21 

33 

Somme 


30 


40 

79 134,5 

121,5 

86 

▼ Tableau 3.2 Consommation de pommes 
coefficients de pondération 

d'un ménage : 

Variété / 

<*0 


«t 

,-PÔ 

a t — 

Pt 

i Pt 
" 0-7 

Po 

9o 

/Pô 

a t~ 

Pô 

Golden 

0,35 


0,35 

0,31 

0,39 

0,53 

0,23 

Pink Lady 

0,25 


0,49 

0,43 

0,28 

0,74 

0,16 

Royal Gala 

0,40 


0,16 

0,16 

0,42 

0,27 

0,25 

Somme 

1 


1 

0,90 

1,09 

1,54 

0,64 


Pour l’indice de Paasche, rappelons que les poids sont 
donnés par : 


ZiPW, 


et l’on a donc : 


w= 


1 


r iP 0 
Zi<*t — 
Pt 


0,903 


= 1,107 


On retrouve bien entendu les mêmes valeurs. La hausse du 
prix moyen du kilogramme de pommes entre 2010 et 2013 
est comprise entre 8,9 % et 10,7 % selon que l’on retient 
l’indice de Laspeyres ou de Paasche. 

Les indices des quantités de Laspeyres et de Paasche s’ob¬ 
tiennent à l’aide des calculs figurant dans le tableau 3.1 : 


1. Le prix moyen du kilogramme de pommes en 2010 et en 
2013 est donné par : 

_ ÏpWo 79 
Po = ——— = — = 2,63 


Pt = 


Ztq'o 30 
ZiPW, 134,5 


: 3,36 


40 

On en déduit l’indice élémentaire du prix moyen : 


= 


Pt _ 3,36 


po 2,63 


1,278 


Le prix moyen du kilogramme de pommes a augmenté de 
27,8 % entre 2010 et 2013. 


L >> = 
*>) = 


ZiPpti 

ÏPWo 

ZiPW, 

ZiMa 


121,5 

79 


1,538 


134,5 

86 


1,564 


Les indices de Fisher sont donnés par : 

F*! l0 (p) = 7 L f/o^) P ?/o(P) = Vl.089x 1,107 = 1,098 
et 

f? /0 (?) = V L ?/»(«)<»(?) = Vl,538x 1,564 = 1,551 
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Statistique et probabilités 


On retrouve bien le fait que la valeur de l’indice de Fisher 
est comprise entre les valeurs prises par les indices de Las- 
peyres et de Paasche. En revanche, on constate que la va¬ 
leur prise par l’indice de Paasche est supérieure à celle de 
l’indice de Laspeyres, contrairement au cas fréquemment 
rencontré. Ce résultat n’est toutefois pas surprenant au re¬ 
gard des valeurs associées aux coefficients de pondération 
üTq et a\. En effet, rappelons que l’inégalité selon laquelle 
l’indice de Paasche est généralement inférieur à l’indice de 
Laspeyres repose sur l’hypothèse de coefficients de pondé¬ 
ration égaux entre les deux indices. Dans le cadre de notre 
exemple, on constate que les coefficients de pondération 
diffèrent fortement entre les deux dates, notamment pour 
les variétés Pink Lady et Royal Gala. On notera que les in¬ 
dices élémentaires des prix associés aux variétés Golden et 
surtout Pink Lady sont ceux qui ont le plus augmenté, ces 
deux variétés étant celles pour lesquelles les coefficients de 
pondération se sont accrus. Dans ces conditions, l’inégalité 
n’a plus de raison d’être vérifiée. 

6 . Calculons les indices de qualité : 


/,>) _ p ?/o(4) _ 1,278 _ 1,564 


L g l/0 ip) 


1,089 

1,333 

^o(P) 

L g l/0 (q) 

1,278 

1,538 


^ 0 (p) ',>) 1.107 1,333 


1,173 


1,153 


L’indice de valeur est donné par : 

l'i 0 = L 9 l/0 (p) x S, X I 9 0 (q) = Pf /0 (p) X 5; X l 9 0 (q) 


soit, avec nos données : 


/ t y 0 = 1,089x1,173x1,333 = 1,107x1,153x1,333 = 1,703 

La hausse de 70,3 % de la valeur du panier de fruits du mé¬ 
nage se décompose comme suit : 


- une hausse du prix moyen comprise entre 8,9 % et 
10,7%; 


1. Les quantités consommées pour chacun des groupes de 
biens en 2014 (notées cj]) sont reportées dans la cinquième 
colonne du tableau 3.3. Elles s’obtiennent comme suit : 


- Pour le bien A : 210 x (1 - 0,238) = 160 

- Pour le bien B : 220 x (1 + 0,0454) = 230 

- Pour le bien C : 30 x (1 - 0,40) = 18 

- Pour le bien D : 470 x (1 +0) = 470 

2. Les indices élémentaires des prix pour chaque groupe de 
biens, base 1 en 2000, notés /(j 0 , sont donnés par : 


,h _ Pj_ 

r/0 %s 


et les valeurs correspondantes sont reportées dans la 
sixième colonne du tableau 3.3. Les prix des 4 biens ont 
augmenté entre 2000 et 2014. Le bien dont le prix a le plus 
augmenté est le bien A, celui dont le prix a le moins aug¬ 
menté est le bien D. 

3. Les calculs nécessaires à la détermination des indices des 
prix de Laspeyres et de Paasche figurent dans les quatre der¬ 
nières colonnes du tableau 3.3. On a ainsi : 


L h „ a (p) = 


290580 
99 040 


J’îoCP) = 


233 090 
79 124 


2,934 

2,946 


On en déduit la valeur de l'indice des prix de Fisher : 


F? /0 (p) = V293,4 x 294,6 = 2,940 

On relève ainsi une augmentation des prix de l’ordre de 
194 % entre 2000 et 2014. On constate que la valeur de 
l’indice de Fisher est bien comprise entre les valeurs des 
deux autres indices. 


Sujet d'examen 


- une hausse de la quantité consommée de 33,3 % ; 

- un effet de structure, pour 15,3 % à 17,3 %. 

Cet effet de structure provient d’une baisse de la consom¬ 
mation de la variété la moins chère (Royal Gala) au profit de 
pommes plus onéreuses, la Golden et surtout la Pink Lady. 
Ce résultat était attendu au vu des valeurs prises par les co¬ 
efficients de pondération : alors qu’en 2010 le coefficient 
de pondération le plus élevé était associé à la variété Royal 
Gala, il est associé à la variété Pink Lady en 2013. 


T Tableau 3.4 Prix, quantités et indices élémentaires - Biens 
a.b.c 


h 

PS 


p? 

<7? 

pU 

PtPt «5 

(en %) < 

(en %) 

a 

4 

5 

8 

2,25 

20 

18 

20 

17 

b 

8 

5 

6 

5 

40 

30 

40 

28 

c 

10 

4 

12 

5 

40 

60 

40 

55 

Total 


14 


12,25 

100 

108 

100 

100 


Sujet d'examen 


▼ Tableau 3.3 Prix et quantités des biens A, B, C et D 


Bien h 

Po 

P? 

Po <7? '?/o 

Pt Po PoPo 

Pt Pt P h oPt 

A 

169 

610 

210 160 3,61 

128100 35 490 

97 600 27 040 

B 

81 

265 

220 230 3,27 

58300 17 820 

60 950 18 630 

c 

1 023 2 470 

30 18 2,41 

74100 30 690 

44460 18414 

D 

32 

64 

470 470 2,00 

30080 15 040 

30 080 15 040 

Total 




290 580 99 040 233 090 79 124 


1. Au regard des valeurs des indices élémentaires des prix fi¬ 
gurant dans le tableau 3.8, on constate que sur la période 
2010-2014, le prix du bien a a augmenté de 100 %, celui du 
bien b a diminué de 25 % et celui du bien c a augmenté de 
20%. 

2. Les prix et les quantités des trois types de produits vendus 
en 2014 sont reportés dans le tableau 3.4 et sont obtenus 
comme suit. On sait que : 

$o(P) = 4 X 100 
P 0 
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Corrigés 


a h 

* (<?) = ^ X 100 


‘f/0 




On déduit donc de ces relations les expressions suivantes 
pour les prix et quantités en 2014 : 


„ V/0 (PW 

p ' = ~kkT 


9? = 


100 


3. Afin de comparer les structures des chiffres d’affaires en 
2010 et en 2014 selon les trois types de produits, il convient 
de calculer les coefficients budgétaires (rj et a h t : 


Ppgp 


P'icit 

ZhpW, 


Au regard des valeurs figurant dans le tableau 3.4, on 
constate que les parts que représentent les produits a et b 
dans le chiffre d’affaires diminuent, alors que celle du pro¬ 
duit c augmente. 

4. Le nombre total de produits vendus est égal à 14 en 2010 
et 12,25 en 2014. On en déduit la valeur de l’indice élé¬ 
mentaire de la quantité totale de produits vendus (base 1 en 
2010 ): 

12 25 

A/o (#) = —“j - = 0,875 

La quantité totale vendue a diminué de 12,5 % entre 2010 
et 2014. 

5. On sait que l’indice de valeur est donné par : 

A/o = A/o (p) x A/ o(q) 

On en déduit la valeur de l’indice élémentaire du prix 
moyen I t /o(p) des produits considérés : 


1,080 
/ ' /0< ' l ' , ~ 0,875 


1,234 


Le prix moyen des produits vendus a augmenté de 23,4 % 

L t /o(q) 

entre 2010 et 2014. Par ailleurs, le rapport -- corres- 

A/oA?) 

pond à l’indice de qualité S J. Cet indice étant égal à 1,133, 
on en conclut que la variation de la structure des ventes (ef¬ 
fet qualité) vers les produits les plus chers a pour consé¬ 
quence une augmentation du chiffre d’affaires de 13,3 %. 


IChapitre4 


Schéma de décomposition additif 

a. Faux, c’est le cas dans un schéma multiplicatif. 

b. Faux. 

c. Vrai. 

d. Faux. 

e. Vrai. 

Principe de conservation des aires et moyennes 
mobiles 

a. Faux. 

b. Vrai. 

c. Vrai. 

d. Faux. 

e. Vrai. 

Lissage exponentiel 

a. Faux, le LES ne s’applique qu’au cas de séries avec ten¬ 
dance constante. 

b. Faux, le LED ne s’applique pas au cas de séries présentant 
une composante saisonnière. 

c. Faux, plus le paramètre de lissage est proche de 1, plus le 
poids des observations récentes est important. 

d. Faux, le LES et le LED ne peuvent être appliqués si la série 
comporte une composante saisonnière. 

e. Vrai. 

Indice Euro Stoxx 

Dans la mesure où les deux mois ne comportent pas le même 
nombre de jours, il faut calculer les valeurs corrigées des jours 
ouvrés. En considérant une moyenne de 21 jours par mois, 
les valeurs corrigées sont données par : (3093,124/23) x 21 = 
2824,157 en janvier et (3085,865/20) x 21 = 3240,158 en fé¬ 
vrier. On en déduit donc : (3240,158 - 2824,157)/2824,157 = 


0,1473. 

a. 

Faux. 

b. 

Faux. 

c. 

Faux. 

d. 

Vrai. 

e. 

Faux. 


Étude de l'évolution de l'indice Euro Stoxx 50 

Notons préalablement que les techniques de lissage doivent 
être appliquées à des séries dites stationnaires, c’est-à-dire à 
des séries dont la moyenne est stable au cours du temps. L’in¬ 
dice boursier étant ici considéré sur une période très courte (un 
mois), cette propriété est vérifiée. 

1. L’application de la formule du LES : 


i 

Schéma 

saisonniers 

a. 

Faux. 

b. 

Faux. 

c. 

Faux. 

d. 

Vrai, enco 

e. 

Faux. 


L, = aY t + (1 - a)L t -\ 

nous permet d’obtenir les valeurs lissées L t de la série Y t 
ainsi qu’elles sont reportées dans le tableau 4.1 pour cha¬ 
cune des trois valeurs considérées du paramètre de lissage 
a. Nous avons retenu comme valeur de départ pour Lo la 
première valeur de la série Y\, c’est-à-dire la valeur obser¬ 
vée au 01/04/2014. 
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▼ Tableau 4.1 Indice Euro Stoxx 50. Application du LES 


t 

Date 

Y, 

L, 

a = 0,2 

u t 

"ï 

L, 

a = 0,5 

Ut 

J 

L, 

a = 0,74 

u t 

u 2 , 

1 

01/04/2014 

3186,336 

3186,336 

0,000 

0,000 

3186,336 

0,000 

0,000 

3186,336 

0,000 

0,000 

2 

02/04/2014 

3187,450 

3186,559 

1,114 

1,241 

3186,893 

1,114 

1,241 

3187,160 

1,114 

1,241 

3 

03/04/2014 

3206,759 

3190,599 

20,200 

408,048 

3196,826 

19,866 

394,658 

3201,663 

19,599 

384,107 

4 

04/04/2014 

3230,332 

3198,545 

39,733 

1578,724 

3213,579 

33,506 

1122,652 

3222,878 

28,669 

821,891 

5 

07/04/2014 

3185,967 

3196,030 

-12,578 

158,218 

3199,773 

-27,612 

762,423 

3195,564 

-36,911 

1362,433 

6 

08/04/2014 

3177,658 

3192,355 

-18,372 

337,522 

3188,716 

-22,115 

489,073 

3182,314 

-17,906 

320,621 

7 

09/04/2014 

3182,793 

3190,443 

-9,562 

91,440 

3185,754 

-5,923 

35,076 

3182,668 

0,479 

0,230 

8 

10/04/2014 

3152,864 

3182,927 

-37,579 

1412,177 

3169,309 

-32,890 

1081,769 

3160,613 

-29,804 

888,299 

9 

11/04/2014 

3116,540 

3169,650 

-66,387 

4407,254 

3142,925 

-52,769 

2784,581 

3127,999 

-44,073 

1942,441 

10 

14/04/2014 

3131,566 

3162,033 

-38,084 

1450,370 

3137,245 

-11,359 

129,017 

3130,639 

3,567 

12,723 

11 

15/04/2014 

3091,524 

3147,931 

-70,509 

4971,516 

3114,385 

-45,721 

2090,436 

3101,694 

-39,115 

1529,951 

12 

16/04/2014 

3139,264 

3146,198 

-8,667 

75,120 

3126,824 

24,879 

618,983 

3129,496 

37,570 

1411,521 

13 

17/04/2014 

3155,806 

3148,119 

9,608 

92,319 

3141,315 

28,982 

839,938 

3148,965 

26,310 

692,229 

14 

18/04/2014 

3155,806 

3149,657 

7,687 

59,084 

3148,561 

14,491 

209,984 

3154,027 

6,841 

46,795 

15 

21/04/2014 

3155,806 

3150,887 

6,149 

37,814 

3152,183 

7,245 

52,496 

3155,344 

1,779 

3,163 

16 

22/04/2014 

3199,686 

3160,646 

48,799 

2381,384 

3175,935 

47,503 

2256,507 

3188,157 

44,342 

1966,251 

17 

23/04/2014 

3175,973 

3163,712 

15,327 

234,903 

3175,954 

0,038 

0,001 

3179,141 

-12,184 

148,449 

18 

24/04/2014 

3189,809 

3168,931 

26,097 

681,066 

3182,881 

13,855 

191,966 

3187,035 

10,668 

113,810 

19 

25/04/2014 

3147,397 

3164,624 

-21,534 

463,722 

3165,139 

-35,484 

1259,143 

3157,703 

-39,638 

1571,193 

20 

28/04/2014 

3165,837 

3164,867 

1,213 

1,470 

3165,488 

0,698 

0,487 

3163,722 

8,134 

66,163 

21 

29/04/2014 

3208,685 

3173,631 

43,818 

1920,026 

3187,087 

43,197 

1865,972 

3196,995 

44,963 

2021,658 

22 

30/04/2014 

3198,387 

3178,582 

24,756 

612,883 

3192,737 

11,300 

127,700 

3198,025 

1,392 

1,939 

Somme 





21376,30 



16314,10 



15307,11 
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Corrigés 


2. La valeur prévue Y, de Y t est donnée par : 

Ÿ, = L t 

et l’erreur de prévision u t est donnée par : 

u,f — Yt — d t _ i = Y, - L, i 

On déduit, d’après les résultats reportés dans le tableau 4.1, 
les valeurs de la somme des carrés des erreurs de prévision : 

- Pour a = 0,2, on a : Zu] = 21376,30 

- Pour a = 0,5, on a : Z= 16314,10 

- Pour a = 0,74, on a : Zu? = 15307,11 

3. Si l’on retient pour a la valeur qui minimise la somme des 
carrés des erreurs de prévision, il convient de choisir la va¬ 
leur a = 0,74. Ce résultat, qui consiste à retenir une valeur 
relativement élevée de a, n’est pas surprenant dans la me¬ 
sure où nous étudions une série boursière, qui constitue un 
exemple typique de série relativement heurtée. 

4. La valeur prévue de la série pour le 01/05/2014, c’est-à-dire 
pour t = 23 est donnée par la dernière valeur obtenue pour 
la série lissée : 

*23 = L22 

soit 3198,025 pour une valeur du paramètre de lissage égale 
à 0,74. Dans la mesure où la prévision est indépendante de 
l’horizon dans le cas du LES, on a : 

Ÿ24 = L22 

et la valeur prévue au 30/04/2014 de la série pour le 
02/05/2014 est donc égale à 3198,025 pour a = 0,74. 

Étude des ventes de voitures neuves en France 


de voitures. Cela peut être confirmé par le calcul du coeffi¬ 
cient de corrélation entre les deux séries : 


riŸnO-i) 


Cov{Yi,(Ti) 

(Tÿ X (Ta-, 

340638745 

40 643,3704 x 11497,1203 


0,7290 


L’existence d’un lien entre les valeurs annuelles de la 
moyenne et celles de l’écart-type conduit à retenir un 
schéma de décomposition multiplicatif. 


T Tableau 4.2 Tableau de Buys-Ballot 


1. Le tableau 4.2 est un tableau à double entrée dans lequel on 
a reporté en ligne les années et en colonne les trimestres. Ce 
tableau est appelé tableau de Buys-Ballot. 

2 . Il est possible de classer, pour chaque année, les trimestres 
en fonction des valeurs décroissantes des ventes de voi¬ 
tures. Le tableau 4.3 reporte les trimestres ainsi classés, le 
chiffre figurant dans chaque case correspondant au numéro 
du trimestre. On constate que le deuxième trimestre est en 
général classé en première position alors que le troisième 
trimestre est systématiquement classé en dernière position. 
Cela témoigne d’un pic dans les ventes de voitures durant le 
deuxième trimestre de chaque année et d’un creux au cours 
du troisième trimestre, indiquant l’existence d’une saison¬ 
nalité dans la série des ventes de voitures neuves en France. 
Ce résultat est cohérent avec ce que l’on observe sur le 
marché automobile français puisque les ventes de voitures 
neuves sont en effet caractérisées par une forte hausse au 
mois de juin et un creux durant le mois d’août. 

3. Les valeurs demandées de la moyenne et de T écart-type 
sont reportées dans les deux dernières colonnes du tableau 
de Buys-Ballot (tableau 4.2). 

4. Notons Ë, la moyenne des ventes de voitures pour chaque 
année i et cr,- l’écart-type de cette même série. Le coeffi¬ 
cient a de la droite de régression de cr, sur Ë, est donné par : 


Cov(Y it o-j) 

V{Ÿi) 


340638745 
1651 883 555 


0,2062 


Le coefficient de la pente de la droite de régression étant 
significativement différent de zéro, cela témoigne de l’exis¬ 
tence d’un lien entre la moyenne et l’écart-type des ventes 


T Tableau 4.3 Classement des trimestres en fonction des 
valeurs décroissantes des ventes 


Année 

Tl 

T2 

T3 

T4 

2006 

2 

1 

4 

3 

2007 

2 

4 

1 

3 

2008 

2 

1 

4 

3 

2009 

4 

2 

1 

3 

2010 

2 

1 

4 

3 

2011 

1 

2 

4 

3 

2012 

2 

1 

4 

3 

2013 

2 

4 

1 

3 
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Statistique et probabilités 


IChapitre 5 

Expérience aléatoire 

a. Vrai. 

b. Vrai. 

c. Vrai. 

d. Faux. L’univers des possibles se compose d’événements 
élémentaires, mais aussi d’événements composés (union ou 
intersection de singletons). 

e. Faux. L’univers des possibles peut être fini ou infini (dé¬ 
nombrable ou non dénombrable). 

Événement 

a. Vrai. 

b. Vrai. 

c. Faux. L’intersection de deux événements disjoints est l’en¬ 
semble vide. 

d. Faux. L’union d’un événement et son complémentaire ne 
correspond pas nécessairement à l’univers des possibles. 
Elle peut correspondre à un autre événement. 

e. Vrai. On peut toujours considérer que l’ensemble vide fait 
partie d’un ensemble d’événements quelconque. 

Ensemble des parties et tribu 

a. Faux. Ceci n’est vrai que dans le cas particulier où l’univers 
des possibles ne comprend qu’un seul résultat. 

b. Vrai. 

c. Vrai. 

d. Vrai. C’est la propriété de stabilité par passage au complé¬ 
mentaire 

e. Faux. D’après la propriété de stabilité par réunion dénom¬ 
brable, c’est l’union d’événements disjoints appartenant à 
une tribu, qui appartient elle aussi à cette tribu. 


fausse, il 4 réponses (fausses) possibles sur les 5 choix pro¬ 
posés. Ainsi, on obtient 


Pr (A 4 ) = 
Pr(A 3 ) = 
Pr(A 2 ) = 


C 4 x 4 4-4 

1 

5 4 

625 

Cl x 4 4 ~ 3 

16 

5 4 

625 

Cl x 4 4 - 2 

96 

5 4 

625 


Ainsi, la probabilité que l’étudiant obtienne au moins la 
moyenne sur cet exercice est égale à environ 18 %. 


Pr (À) = Pr(A 2 ) + Pr(A 3 ) + Pr(À 4 ) = IL = 0,1808 

625 


Probabilité et dénombrement 

L’univers des possibles D correspond à l’ensemble des combi¬ 
naisons de 4 billets parmi les 50. Il y en a : 


W(^) = C ^ 0 = ( 5 4 Q ) = (50 _ 5 » ! !x4! = 230 300 

On ne gagne rien si les 4 billets achetés figurent parmi les 48 
billets perdants. La probabilité de ne rien gagner, événement 
noté A, est donc égale à : 


Pr (A) = 


C 4 

^48 

C 4 

^50 


1 „ 48! 

230 300 X (48-4)1x4! 


194 580 
230 300 


0,8449 


L’événement « gagner au moins un lot » correspond à l’événe¬ 
ment complémentaire de l’événement « ne rien gagner ». Par 
conséquent, la probabilité associée est égale à : 


Pr(A) = 1 -0,8449 = 0,1551 

Ilyal5,51% de chances de gagner au moins un lot dans cette 
loterie. 


Mesure de probabilité 

a. Faux. Une mesure de probabilité peut être définie sur un 
univers probabilisable. 

b. Vrai. 

c. Vrai. Dans le cas d’un univers fini ou dénombrable, l’en¬ 
semble des parties est une tribu. L’univers et l’ensemble des 
parties forment alors un univers probabilisable. 

d. Vrai. 

e. Faux. Si B c A, alors Pr (B) < Pr (A). 


Probabilité et dénombrement 


1. Une grille-réponses est une suite de 4 réponses. Pour 
chaque question il y a 5 réponses possibles. Il y a donc 
5 4 = 625 grilles-réponses possibles. 

2 . L’événement A « répondre au hasard correctement à au 
moins 2 questions » est réalisé si l’étudiant répond correc¬ 
tement à 2, 3 ou 4 questions. Notons A/ pour i e {0,1,2,3,4} 
l’événement « répondre au hasard correctement à i ques¬ 
tions ». On a donc A = A 2 U A 3 U A 4 . Si l’étudiant répond au 
hasard, la probabilité associée à l’événement A, est égale à : 


Pr (Ai) 


C\ x 4 4 --' 

? 


En effet, si l’étudiant répond correctement à i questions 
parmi 4, il a 4 - i questions fausses. Pour chaque question 


Suite d'événements et probabilité totale 

1. On note F n l’événement « fumer le jour n » et F n l’évé¬ 

nement complémentaire « ne pas fumer le jour n ». L’en¬ 
semble d’événements est un système complet, on 

peut donc appliquer la formule des probabilités totales pour 
déterminer la probabilité le jour n + 1 : 

Pr(F„ +1 ) = Pr ( F„ + ] | F„) x Pr (F„) + Pr ( F„ + \\ F 
xPr(F„) 

= 0,8 x Pr(F„) + 0,1 x (1 - Pr(F„)) 

On obtient donc une formule de récurrence du type : 

Pr(F„ + i) = 0,7xPr(F„) + 0,l 

2 . On considère la suite P n +\ = 0,7P„ +0,1. Une solution par¬ 
ticulière est donnée par la solution de l’équation : 

x = 0,7x + 0,1 4=> x = — 

3 

La solution générale est la solution de P n +\ = 0,7P„, c’est- 
à-dire P n = 0,7 n-1 Pi où Pi désigne la probabilité fumer 
le premier jour. La probabilité de fumer le jour n est donc 
donnée par : 

Pr (F„) = 0,7" -1 x Pr (Fi) + — 


IO 
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Corrigés 


Lorsque n —» oo, on obtient Pr(F„) = 1/3. Il y a donc 
66,66 % de chances que cette personne finisse par s’arrê¬ 
ter de fumer. 

Probabilité et indépendance 

1. Pour un individu de la population, la probabilité d’achat des 
deux produits est égale à : 

Pr (A n B) = p A x p B 

car les ventes des deux produits sont indépendantes. 

2. Pour un individu de la population, la probabilité d’achat de 
l’un ou de l’autre produit est égale à : 

Pr(A U B) = Pr (A) + Pr(£) - Pr(A n B) 

= Pa + Pb~ PaX P b 

Probabilité et dénombrement 


2. La probabilité qu’un lot soit valide si le test conduit au rejet 
du lot est égale à la probabilité complémentaire : 

Pr ( D\ r) = 1 - Pr ( D| T) = 1 - 0,5632 = 0,4368 

3. La probabilité qu’un lot soit défectueux si le test ne conduit 
pas au rejet du lot est égale à : 


Pr D\T\ = 


Pr Dnf Pr (T \D xPr(Z)) 


Pr(r) 
0,02 x 0,05 
1 - 0,087 


Pr(r) 

= 0,0011 


4. La probabilité qu’un lot soit valide si le test ne conduit pas 
au rejet du lot est égale à la probabilité complémentaire : 

Pr(DjT) = 1 -Pr(£>|T) = 1 -0,0011 = 0,9989 


1. Soit p = Nk/N la probabilité de tirer une boule rouge. À 
chaque tirage il y a deux éventualités : soit tirer une boule 
rouge (événement R ), soit tirer une boule blanche (événe¬ 
ment B) avec Pr ( R ) = p et Pr (B) = 1 - p ce qui définit un 
système complet sur l’univers des possibilités fl = {B,R}. 
Faire n tirages avec remise revient à considérer l’espace 
produit probabilisable fl n = {(jci,...,jc„) ;jc,- = B ou R V/} 
muni de la probabilité p n . Soit l’événement Ek « on tire k 
boules rouges » composé des éléments ùj = (xi,...,x„) tels 
que parmi les singletons x, il y A: fois la lettre R et n - k 
fois la lettre B. Il y a donc C k n événements correspondants, 
c’est-à-dire C k n façons de disposer k boules rouges à n places 
numérotées. Chacune de ces éventualités a pour probabilité 
p k (1 — p) n ~ k car les tirages sont indépendants. 



Nr\" 

l N / l 1 

N ) 


2. On vérifie que la probabilité de tirer A: = 10 boules rouges 
est égale à 9,85 %, puisque : 


P(£io) = C“ 



= 9,85 % 


10 Probabilité conditionnelle 

On note D l’événement « lot défecteux » et D l’événement « lot 
valide ». On note T l’événement « le test conduit au rejet du 
lot » et T l’événement « le test ne conduit pas au rejet du lot ». 

1. La probabilité qu’un lot soit effectivement défectueux si le 
test conduit au rejet du lot est égale à : 


Probabilité conditionnelle 

Soit A l’événement « l’étudiant est issu de la formation A » et 
B l’événement « l’étudiant est issu de la formation B ». Soit M 
l’événement « l’étudiant a obtenu une mention bien ». La pro¬ 
babilité qu’un étudiant ayant obtenu une mention bien soit issu 
de la formation A est égale à : 

Pr (A fl M) Pr(M|A)xPr(A) 

Pr(M) Pr (M) 

La probabilité d’obtenir une mention est égale à : 

Pr (M) = Pr ( M| A) x Pr (A) + Pr ( M\ B) x Pr (B) 

= 0,30 x 0,70 + 0,20 x 0,30 = 0,27 


Par conséquent : 


Pr(A[ M) = 


0,30 x 0,70 

(Ü7 


0,7778 


12 Probabilité conditionnelle 

1. Nous avons : 

Pr(A„ +1 ) = Pr(A„ + i|A„)xPr(A„) + Pr(A„ + i|A„) 
x Pr (Â„) 

= lpr(A„)+ ^(l-Pr(A„)) 

3 2 

=-Pr(A„) 

8 8 


Pr(Z>| T) = 


Pr (D n T) 
Pr (T) 


Pr ( T\ D) x Pr (D) 

mrï 


Or la probabilité qu’un test conduise au rejet d’un lot est 
égale à : 


Pr(T) = Pr(r|D)xPr(D) + Pr(r|DjxPr(D 
= 0,98 x 0,05 + 0,04 x 0,95 = 0,087 
On en déduit que : 

Pr (T\D)x Pr (D) 0,98 x 0,05 


Pr (Z)| T) ■■ 


Pr (T) 


0,087 


= 0,5632 


2. La relation précédente définit une suite géométrique. Une 
solution particulière est donnée par 



On en déduit que la probabilité de l’événement « l’individu 
se rend au cinéma le jour i » est égale à : 


Pr 04») = -jp +Pi 



avec Pr(Ai) = p\. 
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Statistique et probabilités 


IChapitre6 


Variable aléatoire 

a. Faux. Une variable aléatoire est une application mesurable. 

b. Faux. Seules les variables quantitatives peuvent être conti¬ 
nues. 

c. Vrai. 

d. Vrai. Une variable aléatoire continue est définie sur un sup¬ 
port infini non dénombrable. 

e. Faux. Pas nécessairement, une variable aléatoire discrète 
peut être définie sur un support de dimension finie. 

Fonction de densité, de masse et de répartition 

a. Vrai. 

b. Faux. La densité est toujours positive, mais elle peut être 
supérieure à 1 en un point. 

c. Faux. La fonction de densité est la dérivée de la fonction de 
répartition. 

d. Vrai. C’est la définition de la fonction de répartition. 

e. Faux. La fonction de masse ne correspond pas à la dérivée 
de la fonction de répartition. 

Fonction de répartition et quantité 

a. Faux. Un quantile est une réalisation. 

b. Vrai. 

c. Faux. Les quantiles sont définis sur le support de la loi de 
probabilité. 

d. Faux. Pour de nombreuses lois usuelles, la fonction de ré¬ 
partition n’a pas d’expression analytique. 

e. Vrai. 


Indépendance 

a. Faux. La covariance n’est qu’une mesure de dépendance 
linéaire. Il peut exister d’autres formes de dépendance non- 
linéaire entre ces variables. 

b. Faux. Si la densité jointe est égale au produit des densités 
marginales, les variables sont indépendantes. 

c. Vrai. 

d. Vrai. 

e. Vrai. 


Fonction de répartition 

Soit X une variable aléatoire réelle admettant pour fonction de 
répartition : 


F K O) = 


f 0 
1/4 
3/4 
{ 1 


si x < 0 
si 0 < x < 1 
si 1 < x < 2 
si x > 2 


Pr 


- 5 <*< 




1 

4 



Pr(X > 3) = 1 - Pr(X < 3) 
= 1 -Fx (3) 

= 1-1 
= 0 


Espérance 

1. Par définition : 


B( (X - a) 2 ) = V (X - a) + (E (X - a)) 2 
= V(X) + (E(X-«)) 2 

2. On pose / (a) = B( (X - a) 2 ). Cette fonction atteint son mi¬ 
nimum lorsque df (a) /da = 0 et d 2 / ( a ) Ida 2 > 0. 

dfia ) 


da 


■- E(-2 (X - a)) = E(-2X + 2a) = -2B (X) + 2a = 0 


d 2 f (a) 
da 2 


= 2 > 0 


On en déduit que a = B (X) est un minimum. Donc la valeur 
de a pour laquelle l’espérance B ((X - a) 2 ) est minimum est 
égale àE(X). 


Fonction de densité 

1. La fonction fx ( x ) définie par : 


_ ( 0 si v < e 

| exp (- (x - 6)) si*>0 

est positive ix 6 R. Montrons qu'elle intègre à l’unité sur 
le support X (fi) = R. 



fx (x) dx = 



exp (- {x - 6)) dx 


exp (-x) dx 


= T(l) = 0! = 1 


où r (.) désigne la fonction gamma. Donc f x {x) satisfait les 
conditions d’une fonction de densité. 

2. Par définition de la fonction de répartition, V.v e R : 


Fx (x) = J fx («) dii = J exp (- (« - 0)) du 




exp (0) I exp (— u) du 


= exp(0) x [-exp(-!<)]£ 
= 1 - exp (- (x - 6)) 
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Corrigés 


3. Par définition, l'espérance E (X) est égale à : 


E(X) 


X +oo r'+oo 

xfx(x)dx= I xexp(- (x - G))dx 


En posant u = x - G < 


• x = u + G, du = dx il vient : 


KX) = 


(u + G) exp (— u) du 


r 

r'+oo r'+oo 

: I u exp (— u) du + I 6 exp (— u) du 

Je Je 


= r( 2 ) + er(i) = i! + <9xO! = i + 0 

4. De la même façon : 


r'+oo r'+oo 

E (x 2 ) = J x 2 f x (x) dx = J x 2 exp (- (x - G)) dx 
En posant u = x - G <==> x = u + G, du = dx il vient : 

Z-'+OO 

E fx 2 ) =| (u + B) 1 exp (-«) du 
J e 

r'+oo 

= | (u 1 + 2 u8 + S 2 ) exp (- u) du 

e 

r'+oo r'+oo 

= I u 2 exp (-u) du + 2G I u exp (-u) du + G 2 
Je Je 


I 


exp {—u) du 


= r(3) + 2^r(2) + é/ 2 r(i) 
= e 2 + 26 + 2 

On en déduit la variance : 


Y(X) = e(x 2 )-E(X ) 2 

= e 2 + 29 + 2 - (1 + B) 2 
= B 2 + 29 + 2 - 1 - 26 - B 1 = 1 


Transformée de variable aléatoire 

1. Puisque les variables X et F sont indépendantes : 

Pr(Z >k) = Pr((X>&) n (. Y>k )) = Pr(X>£) x Pr(F>Â:) 
Par ailleurs, nous savons que : 

Pr (X > k) = Pr(X> k+ 1) 

= Pr(X = k + 1) + Pr(X = k + 2) + ... 

= Pr (X = ;) 
i=k +1 

+oo 

- Z r'p 

i=k +1 

En posant j = i - k - 1, on obtient : 

Pr(X >k) = Y J q J+k p = q k pY j q J = y^~ = cf 

pü j=0 q 

De la même façon Pr (7 > k) = q k . On en conclut que : 

Pr (Z > k) = q 2k Vk G N* 


2 . Par définition : 

Pr (Z >k) = Pr ((Z > k) U (Z = k)) 

Puisque les deux événements (Z > k ) et (Z = k) sont incom¬ 
patibles, on a : 

Pr (Z > k) = Pr(Z > k) + Pr (Z = k) 

ou encore : 

Pr (Z = k) = Pr(Z > k) - Pr(Z > k) 

Or puisque Z est définie sur N*, on a Pr(Z>&) = 
Pr(Z > k — 1). Par conséquent : 

Pr(Z = k) = Pr(Z > k - 1) - Pr(z > fc) 

3. D’après les résultats précédents, on montre que : 

Pr (Z = k) = Pr(Z > k - 1) - Pr (z > k) 



Donc Z suit une loi géométrique de paramètre (l - g 2 ). 

Variable aléatoire discrète 

1. Au premier tour, il y a 2 rois rouges dans le paquet de 2 n 
cartes. La probabilité de l’événement E\ « le premier roi 
rouge obtenu est la V e carte retournée » est donc égale à : 

ft(Ei)= è 

Au second tour, la probabilité conditionnelle à l’échec du 
premier tour, c’est-à-dire à E\, de tirer un roi rouge parmi 
les 2n - 1 cartes restantes est égale à : 

Pr ( £jr ')- 5 L T 

La probabilité d’avoir échoué au premier tirage est égale à : 

/- x 2/i-2 

Pr(£ 1 ) = l-Pr(£ 1 )=^ r 

Dès lors, la probabilité de l’événement £2 est égale à : 
Pr(£ 2 ) = Pr(£ 2 |I 1 )xPr(l 1 ) 

2 2n - 2 _ 2»-2 

2 n - 1 2 n n (2 n - 1 ) 

Au troisième tour, la probabilité de l’événement £3 peut 
s’écrire sous la forme : 

Pr (£ 3 ) = Pr ( £ 3 1 12 .S 1 ) x Pr (I 2 ) x Pr (Si) 

2 ^ 2 n - 3 ^ 2n — 2 2/z - 3 

” 2«-2 X 2/i- 1 X 2/7 “ /z (2/z - 1 ) 

De façon générale, on montre que : 

Pr(£fc) = Pr (£ t |£a 1 ,... ,£i) x Pr(£ t ._i) x ... x Pr(£i) 
2/7 — k 
n (2/7 - 1) 
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Statistique et probabilités 


On vérifie que la probabilité de tirer le premier roi rouge 
au k eme tour est nulle, puisque cet événement est impossible 
sachant qu’il y a deux rois rouges dans le jeu de cartes, et 
que nécessairement le premier roi rouge a été tiré entre le 
premier tour et le k - \ eme tour. 

, 2 n — 2 n 

Pl(£2,,) = ~p -TT = 0 

n (2 n - 1) 

2. Soit E(fl) = {Ei,...,E 2 n } l’univers des résultats possibles. 
On définit une variable aléatoire Z correspondant au gain : 
à chaque tour le joueur perd 1 euro et il gagne a euros 
s’il tire un roi rouge. S’il tire le roi au I er tour, il gagne 
a — 1 euros, s’il tire le roi au deuxième tour il gagne a — 2 
euros. Ainsi, s’il tire un roi rouge au k eme tour, il gagne 
a - k euros. La variable Z est donc définie sur le support 
X(fl) = {a- l,a-2,...,a-2n). 

3. Par définition : 


Pr(X = a-k) = Fr(E k ): 


2 n - k 
n ( 2 n - 1 ) 


4. On vérifie que : 


2h . 2« 


(2*-l)‘ 

1 

n (2 n — 1) 


An' 


2 2 n ( 2n + 1 ) \ 


1 / 4n 2 -2n\ 

n (2n — 1) ( 2 ) 


= 1 


Le système défini par les réalisations X (fl) est un système 
complet. 

10 Variable aléatoire continue 


1. Pour que la fonction fx (x) soit une fonction de densité, elle 
doit être positive Vx e R et son intégrale sur R doit être 
égale à 1. La positivité est assurée dès lors que a > 0. Par 
ailleurs : 

/-'+oo r*+oo 

J f x (x)dx = aj exp (-|x|) dx 

z-'+oo 

= 2 a I exp (—x) dx = 1 

J o 

On doit donc avoir a = 1/2. La fonction fx (x) est une den¬ 
sité si : 

fx (x) = - exp (-1*1) 

2. La fonction de répartition est définie par : 

Fx (x) = Pr (X < x) = - J' exp (—1«|) du Vx e R 

Lorsque x < 0, on a : 

1 C x , 1 r x 

F x (x)=- J exp(-\u\)du = - J exp (u) du 

1 r / mx exp (x) 

= 2 [exp («)]_„ = —— 


Lorsque x > 0, on a : 

i r x 

Fx W = - | ex P (- M) du 

i r° i r x 

= — J exp (u) du + - J exp (-u) du 

= - [exp («)]“„ + - [- exp (-«)]q 

1 exp (-x) 1 exp (—x) 

"2 2 + 2 ~ ' 

On obtient au final : 

exp (x) 

2 

exp (-x) 

2 

3. Par définition : 

E ( z ) = \ f x exp dx 

x exp (x) dx + — I x exp (-x) dx 
2 J o 

En posant un changement de variable z = —x sur la première 
intégrale, il vient : 

1 r + °° i r + °° 

E (Z) = - - I z exp (-z) dz+ - x exp (-x) dx = 0 

2 J o 2 Jo 

I Chapitre 7 

Loi usuelles discrètes 

a. Faux. La loi binomiale correspond au nombre de succès ob¬ 
tenus dans n tirages successifs et indépendants d’une expé¬ 
rience de Bernoulli. 

b. Vrai. 

c. Vrai. 

d. Vrai. 

e. Vrai. 

Loi usuelles continues 

a. Vrai. 

b. Faux. Cette propriété n'est vraie que pour la loi exponen¬ 
tielle. 

c. Faux. Sa skewness est positive. 

d. Faux. Ceci n’est vrai que si fx = 0 et cr 2 = 1. 

e. Vrai. 

Loi normale 

a. Vrai. 

b. Faux. d> 1 (0,025) = -1,96. De façon générale (a) = 
-0~ l (1 - a). 

c. Vrai. La fonction de répartition inverse de la loi normale 
centrée réduite <P~ l (a) est croissante sur [0,1]. 

d. Vrai. Puisque la fonction de densité de la loi normale cen¬ 
trée réduite est symétrique par rapport à 0, on a 0(x) = 
-0(-x). 

e. Vrai. 




2 


si x < 0 
si x > 0 
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Corrigés 


Loi de Student 


Par définition : 


a. Faux. La kurtosis peut être égale à 3 si le nombre de degrés 
de liberté de la loi de Student tend vers l’infini. 

b. Vrai. 

c. Faux. Puisque la fonction de densité de la loi de Student est 
symétrique par rapport à 0, on a F x (x) = —F x (—x). 

d. Vrai. 

e. Faux. Car si a < 0,5 le quantile d’ordre a est nécessaire¬ 
ment négatif. Si X ~ / (4), le vrai quantile est F x l (0,05) = 
-2,1318. 


Loi usuelles discrètes 

1. Par définition Pr (X = 4) = 0 car 4 g X (L2). 


Pr (X = 1): 


1 


1 


Pr (X < 2) = F x (2) 

Ou de façon équivalente : 

2 


3 - (-2) + 1 6 

2 — (-2) + 1 5 

3-(-2)+ 1 “ 6 


Pr(X<2) = £pr(X = 0 = Ê^=5xi = ^ 


2. Si X ~ B (10; 0,4) alors son support est 

X(H) = {0,1,...,10}. La réalisation x = 2,57 n’appartient 
pas à X {££) donc Pr (X = 2,57) = 0. 

Pr(X = 2) = f 2 ° j x 0,4 2 x 0,6 10-2 = 0,1209 

Soit F x (x) la fonction de répartition de la loi B ( 10; 0,4) : 


Pr(2,57 < X < 4) = Pr(X < 4) - Pr(X < 2,57) 
= F x (4) - F x (2,57) 


Nous savons que : 


Fx (2,57) 


L2 ' 57J / m\ 

2] ( ^ J X 0,4* x (1 - 0,4) 10 ~* 


4‘ VS 4 ‘ 

F x (2,57) = exp (-4) - = exp (-4) £ - = F x (2) 

;=o 1 ' ;=o l ' 

Pour une loi V (4), on lit dans la table fournie en annexe 
que : 

F x (2) = 0,2381 F x (4) = 0,6288 
On en déduit que : 

Pr(2,57 < X < 4) = 0,6288 - 0,2381 = 0,3907 


Loi normale 


1. La loi normale est une loi continue et donc la pro¬ 
babilité associée à une réalisation particulière est nulle 
Pr(X = 2,57) = 0. 


Pr(|X| > 1) = 1 -Pr([X| < 1) 

= 1 - Pr(-1 <X< 1) 

= 1 - Pr (X < 1) + Pr(X < —1) 


Si X ~ N (2,2) alors (X - 2)/ V2 suit une loi normale cen¬ 
trée réduite N (0,1). Par conséquent : 


Pr(|X|> 1) = 1 
= 1 ■ 


Pr(X< l) + Pr(X< -1) 
„ IX -2 1 - 2 \ 

nr ■ "vr) 



<P (-0,7071) + & (-2,1213) 


où 0 (.) désigne la fonction de répartition de la loi normale 
centrée réduite. Par lecture de la table de la loi normale cen¬ 
trée réduite, il vient : 


0 (-0,7071) = 1 - 0(0,7071) =* 1 - 0(0,71) 
^ 1 -0,761148 = 0,238852 


= Yj ( \° ) x °- 4<r x (! - 0,4) 10 ~* 

k=0 ' ' 

= Fx (2) 


Pour une loi f B (10; 0,4), on lit dans la table fournie en an¬ 
nexe que : 


F x (4) = Pr(X < 4) = 0,6331 
Fx (2) = Pr(X < 2) = 0,1673 
On en déduit que : 

Pr (2,57 < X < 4) = 0,6331 - 0,1673 = 0,4658 

3. Si X ~ *P (4) alors son support est X (Q) = N. La réalisation 
x = 2,57 n’appartient pas à X (Q) donc Pr (X = 2,57) = 0. 


Pr(X = 5) = 


4 5 x exp (-4) 
5! 


= 0,1563 


Soit F x (x) la fonction de répartition de la loi P (4) : 


Pr (2,57 < X < 4) = Pr (X < 4) - Pr (X < 2,57) = F x (4) 
~F X (2,57) 


La valeur précise, obtenue avec un logiciel (Matlab), est 
égale à 0{— 0,7071) = 0,2398. De la même façon, par lec¬ 
ture de la table de la loi normale centrée réduite, il vient : 

0(-2,1213) = 1 - 0(2,1213) = 1 - 0(2,12) 

= 1 - 0,982997 = 0,017003 

La valeur précise obtenue avec un logiciel est égale à 
0 (-2,1213) = 0,0169. Par conséquent : 

Pr(|X| >1)^ 1 - 0,238852 + 0,017003 = 0,778151 

Avec un logiciel, on obtient Pr(|X| > 1) = 0,7772. 

2. Soit F x l (a) le quantile d’ordre a de la loi normale N (2,2) 
tel que : 

Pr(x < F~ l (a)) = F x (f~' (a)) = a- 

Étant données les propriétés de la fonction de répartition de 
la loi normale, on sait que F x (—oo) = 0. Donc le quantile 
d’ordre a = 0 de la loi normale N (2,2) est égal à — c», Le. 
F^ 1 (0) = -oo. La définition du quantile à a = 95 % est la 
suivante : 

Pr(x < F x ' (0,95)) = 0,95 


© Dunod, Paris 2015 


15 






Statistique et probabilités 


Si X ~ N (2,2) alors (X-2)/V2 suit une loi normale 
N (0,1). Dès lors : 


Pr(z < fÿ (0,95)) 


Pr 


X-2 F-' (0,95) - 2 


y/2 ~ V2 

0{h' x ' (0,95)) = 0,95 


On a donc une relation entre le quantile à 95 % de la loi nor¬ 
male N (2,2) et le quantile à 95 % de la loi normale centrée 
réduite : 


F~ l (0,95) = 2+ V2 x 0~ l (0,95) 


Par lecture de la table de la loi normale centrée réduite, 
il vient & 1 (0,95) — 1,65. Avec un logiciel on obtient 
<2>“‘ (0,95) = 1,6449. Dès lors : 


F- 1 (0,95) = 2 + V2 x 1,65 = 4,333 


ou de façon plus précise avec un logiciel F x l (0,95) = 
4,3262. 

3. La définition du quantile à a = 1 % de la loi normale 
N (2,2) est la suivante : 


Pr (X < F x l (0,01)) = 0,01 


Si X ~ N (2,2) alors (X — 2) / V2 suit une loi normale cen¬ 
trée réduite N (0,1). On a donc une relation entre le quantile 
à 1 % de la loi normale N {2,2) et le quantile à 1 % de la loi 
normale centrée réduite : 

F~ l (0,01) = 2 + V2 x 0~ l (0,01) = 2 - V2 x 0~ l (0,99) 

Par lecture de la table de la loi normale centrée réduite, 
il vient (0,99) = 2,33. Avec un logiciel on obtient 
0 l (0,99) = 2,3263. Dès lors : 


F~ l (0,01) = 2 - V2 x 2,33 = -1,2951 

ou de façon plus précise avec un logiciel l‘ x (0,01) = 
-1,2900. 


Loi Binomiale 


1. La variable X n suit une loi Binomiale 3{n,p) avec p 
2/8 = 1/4, donc 


l (X„) = np= - 




Y (X n ) = np ( 1 - p) = 

On en déduit que : 

E(F„) = e( — ) = 1-E(X„) = - 

V(F„) = v(^)= 2 vpo= 4 - 

\ n / n z Ion 

2. On suppose que n = 10000. Dès lors, il vient : 

1 __ 3 


S (F n ) = 


T (F„) = 


4 ' 160 000 

On en déduit que : 

Pr(f„ e ]0,22;0,26[) = Pr(f„ -E(f„) s ]-0,03;0,01[) 
> Pr(|F„ -E(F„)| <0,01) 


ou encore : 


Pr (F n e ]0,22;0,26[) > 1 - Pr(|F„ -E(f„)| > 0,01) 


D’après l’inégalité de Tchebychev (► chapitre 8), nous 
avons : 

Y (F ) 

Pr(|F„-E(F„)|>0,01)< 

On obtient : 


Pr(F„ e ]0,22;0,26[) > 1- 


V(F„) 

0,01 2 


160 000 x 0,01 2 


ou encore : 


Pr (F„ e ]0,22; 0,26[) > 


13 

Tô 


3. Le nombre minimal n de tirages nécessaires pour que la 
probabilité de l’événement F„ e ]0,22; 0,26[ soit au moins 
égale à 0,99 est tel que : 


Pr(f„ e ]0,22; 0,26[) > 1 


V(F„) 

0 , 01 2 


ou encore : 


1 


0,01 2 x 16n 
On en déduit la valeur minimale de n 
3 


= 0,99 


16 x 0,01 3 


187 500 


0,99 


Loi normale 

Soit X une variable aléatoire dont la loi de probabilité est la loi 
normale de moyenne 12 et d’écart-type 4. 

X~)V(12,16)o - 4 12 - AT(0,1) 

On note 0 (.) la fonction de répartition de la loi normale centrée 
réduite. 

1. Les probabilités de ces événements sont respectivement 
égales à : 

Pr (A = 2) = 0 

puisque, pour une variable aléatoire continue, la probabilité 
d’être en un point est nulle. 

/ v _|2 _12\ 

Pr(X< 16) = Pr —-— < ——^ = 0(\) = 0,8413 

Pr (X > 20) = 1 - Pr (X < 20) 

= 1 - 0 ( 2 ) 

= 0,0228 

( y — 12 o-12\ 

—-— < ——\ = 0(-3) = 0,0013 
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Corrigés 


2 . On cherche le nombre e tel que la probabilité de réalisation 
de l’événement (\X - 12| > e ) soit égale à 0,01. 

Pr (\X - 12| > e) = 1 -Pr(|X- 12| < e) 

= 1 - Pr (-e < X- 12 < e) 

. X - 12 
1 _Pl _ 4 “ 4 “ 


1 - Pr 

+ Pr 


X- 12 


1 - 0 


4 4 j 

GM-j) 


Puisque 0 (-x) = 1 - 0 (x), il vient 

Pr(|X- 12| > e) = 2-20^ = 0, 
On en déduit que : 


01 


0 


(I) 


2 - 0,01 


■ e = 4x0 


-ri?-o.oi 


La constante e est égale à : 

e = 4 x 0~ l (0,9950) = 4 x 2,5758 = 10,3033 
3. La variable Y suit une loi normale avec : 

E(7) = E (aX + b) = dE(X) + b = 12a + b 
Y (Y) = Y(aX + b) = a 2 Y(X) = 16 a 1 


Ainsi, on obtient : 

Y ~ N{\2a + b,\6a 2 ) O 
Nous savons que : 

Pr (7 < 24) = 0 


Y-Ua-b 
4 a 


-AC (0,1) 




Pr(y > 42) = 1 - Pr (7 < 42) 

/ 42- 12a-M 


= \ -0 


/ 42- 12 a-b\ 

l ^ I 


= 0,0068 


On obtient un système à deux équations et deux inconnues : 


24 - 12a - b 
4a 

42 -12 a-b 


4 a 


= 0 l (0,2266) k -0,75 
0~' (0,9320) a 1,5 


On en déduit que : 


a — 2, b = 6 


Loi binomiale et loi de Poisson 

On considère les nombres xo et x\ définis comme suit : 

- xo est la plus grande valeur entière de x telle que : 

Pr (X < x) < 0,05 

- xi est la plus petite valeur entière de x telle que : 

Pr (X > x) < 0,05 


1. On suppose que la variable X suit une loi binomiale 
!B (40; 0,08). Déterminons xo, la plus grande valeur entière 
de x telle que : 

Pr (X < x) < 0,05 

Nous savons que : 

Pr (X < 0) = 0,0356 
Pr (X < 1) = 0,1594 

Donc xo = 0. De la même façon, déterminons xi, la plus 
petite valeur entière de x telle que : 

Pr (X > x) < 0,05 «=> 1 - Pr(X < x) < 0,05 

Ce qui peut se réécrire sous la forme : 

Pr (X < x - 1) > 0,95 

puisque X est définie sur le support X (Q) = N. Nous savons 
que : 

Pr(X< 5) = 0,9033 
Pr(X< 6) = 0,9624 

Donc x — 1 > 6 ou x > 7. La plus petite valeur entière de x 
telle que Pr (X > x) < 0,05 est égale à xi =7. 

2 . On suppose que la variable X suit une loi de Poisson P (12). 
Déterminons xo, la plus grande valeur entière de x telle que : 

Pr (X < x) < 0,05 


Nous savons que : 

Pr(X< 6) = 0,0458 
Pr(X< 7) = 0,0895 

Donc xo = 6. De la même façon, déterminons xi, la plus 
petite valeur entière de x telle que : 

Pr (X > x) < 0,05 <=> 1 - Pr(X < x) < 0,05 

Ce qui peut se réécrire sous la forme : 

Pr (X < x - 1) > 0,95 

puisque X est définie sur le support X (Q) = N. Nous savons 
que : 

Pr (X < 17) = 0,9370 
Pr (X < 18) = 0,9626 

Donc x — 1 > 18 ou x > 19. La plus petite valeur entière de 
x telle que Pr (X > x) < 0,05 est égale à xi = 19. 

10 Loi de Fisher et loi du khi-deux 

On considère les nombres xo et xi définis comme suit : 

Pr (X < x 0 ) = 0,05 
Pr (X > xi) = 0,05 

1. On suppose que la variable X suit une de Fisher T' (4,20). 
Soit Fx (x; n,m ) la fonction de répartition de la loi P ( n,m ). 
En utilisant un logiciel de statistique, on obtient directe¬ 
ment : 

Pr(X < x 0 ) = 0,05 <=> x 0 = F~' (0,05; 4,20) = 0,1723 
Pr(X > Xi) = 0,05 <=> Xi = h# (0,95;4,20) = 2,8661 
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2. On suppose que la variable X suit une loi du khi-deux^ 2 (8). 
Soit F x (x; v) la fonction de répartition de la loi y 2 (v) . En 
utilisant un logiciel de statistique, on obtient directement : 

Pr (X < x 0 ) = 0,05 » *o = F" 1 (0,05; 8 ) = 2,7326 

Pr(X > xi) = 0,05 <=> xi = F~ l (0,95; 8) = 15,5073 

I Chapitre 8 

Convergence 

a. Faux. La convergence en probabilité implique la conver¬ 
gence en loi, mais la réciproque n’est pas toujours vraie. 

b. Vrai. La convergence en probabilité implique la conver- 

p p 

gence en loi au sens où si Y n —> F <==> F„ - Y —» 0, 
alors Y n -i Y. 

c. Vrai. La convergence presque sûre implique la convergence 
en probabilité et donc la convergence en loi. 

d. Vrai. La convergence presque sûre implique la convergence 
en probabilité, mais la réciproque n’est pas toujours vraie. 

e. Faux. 

Si Y],...,Y n sont des variables indépendantes et identique¬ 
ment distribuées, alors : 

a. Faux. Sans hypothèses supplémentaires sur les variables F/, 
on ne peut pas invoquer la loi forte des grands nombres. 

b. Vrai. D’après la loi faible des grands nombres, la moyenne 
empirique converge en probabilité vers l’espérance. 

c. Faux. Cette phrase ne veut rien dire. 

d. Faux. La moyenne empirique converge en probabilité vers 
l’espérance, et donc sa distribution asymptotique est dégé¬ 
nérée (au sens strict). 

e. Vrai. D’après le théorème central limite, yfn(Y n — E(F,-)) 
converge en loi vers une loi normale. 

Si une variable Z„ est asympotiquement normalement dis¬ 
tribuée, cela signifie que : 

a. Faux. Rien ne permet de dire que la loi asymptotique est 

N (0,1). 

b. Vrai. Au sens strict, cela signifie que y/n(Z n — E(Z„)) —» 

c. Vrai. Lorsque y/n (Z n — E (Z,,)) —> N (0,cr 2 ) > on dit que Z„ 
est asympotiquement normalement distribuée. 

d. Faux. Rien ne permet de dire que la loi asymptotique est 
N (0,1). 

e. Vrai. Si la variable Z n est asympotiquement normalement 
distribuée : 

y/n (Z n - m) -i N (û,or 2 ) 

Pour une dimension n grande et finie, on peut écrire que : 



Soit Y\,...,Y n une suite de n variables aléatoires et soit Y n 
la moyenne empirique : 


a. Vrai. C’est le théorème de Lindeberg-Levy qui s’applique 
dans ce cas. 

b. Vrai. C’est le théorème de Lyapounov qui s’applique dans 
ce cas. 

c. Vrai. Si les espérances sont identiques, c’est le théorème 
de Lindeberg-Feller qui s’applique. Si les espérances sont 
différentes, on applique le théorème de Lyapounov. 

d. Vrai. C’est le théorème de Lyapounov qui s’applique dans 
ce cas. 

e. Faux. Sans hypothèse particulière sur la forme de la dé¬ 
pendance (dépendance faible), le théorème central limite ne 
s’applique pas. 


2 . 


3. 


Convergences 

1. Les variables X\/cr et Xi/cr sont indépendantes et suivent 
toutes deux une loi normale centrée réduite. Dès lors, 
les variables X^/cr 2 et X^/cr 2 sont elles aussi indépen¬ 
dantes et suivent une loi du khi-deux à un degré de liberté 
(^ chapitre 6). La variable Y 2 1er 2 est une somme de deux 
khi-deux indépendants, elle suit une distribution du khi- 
deux à 2 degrés de liberté : 

Y 2 X 2 Xj 

— = -i + -f ~^( 2 > 

<x z (T l (T z 

D’après les propriétés de la loi du khi-deux, on sait que si 
Z ~ y 2 (v) alors E (Z) = v et V (Z) = 2v. On en déduit que : 

5) = i B ( y2 ) = 2 ^ E ( y2 ) = 2a3 
v (5) = i v ( r2 ) = tov ( y2 ) = 4cr4 

Calculons E (cr 2 ) et V ( cr 2 ) . Sous l’hypothèse d’un échan¬ 
tillon i.i.d., il vient : 

i=i 

/—\ 1 1 / ?\ n x 4 <t 4 cr 4 

t M = y — -T 

V 1=1 / 1=1 

Dès lors : 


E (? 2 ) = a 2 

limVlcr 2 ) = lim — =0 

n—*oo V / n—*oo n 

On en déduit que c? 2 converge vers cr 2 : 


=2 F 


Les variables Y 2 . ,Y 2 sont i.i.d. avec e(f 2 ) = 2cr 2 et 

V (y?) = 4cr 4 . Par application du théorème central limite, il 


VÏÏ 


1 n 

2>. 2 


2 cr‘ 


■ JV(0,4o- 4 


Or, l’estimateur cr 2 est défini par : 


1 K 

= -Yy 2 

2 n Zj ‘ 


2 n 

i= i 

En utilisant la méthode delta pour une fonction g (x) = x/2, 
il vient : 

yjn (tr 2 - tr 2 ) -i N (0,tr 4 ) 
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Corrigés 


Théorème central limite 


Soit Xj la variable binaire valant 1 si l’abonné i est connecté 
et 0 sinon. La variable Xj suit une distribution de Bernouilli 
de probabilité p = Pr (X, = 1) = 0,20. Les variables Xj sont 
indépendantes, donc la variable X définie par : 


x = 2> 
i= 1 

avec n = 5 000 suit une loi binomiale S (5 000; 0,20). Par 
définition : 

E (X) = np = 5 000 x 0,2 = 1000 
Y(X) = np(l- p) = 5000 x 0,2 x 0,8 = 800 

2. Les variables X, sont i.i.d. avec E(X,-) = p = 0,2 et 
Y (Xj) = p(\ - p) = 0,16, par application du théorème 
central limite de Lindeberg-Levy il vient : 

( \ n ^ 

Yj X ‘ “Pj N(0,p(l - p)) 

Pour n grand mais fini, on a donc : 

/X 


ou encore : 


yfn ( — - p) N (0,p (1 - p)) 
p(.i-p)\ 


N\p. 


(^) 


Finalement, il vient : 


usu X — np 

X ~ N (np,np(l — p)) <=> 


yjnp (1 - p) 


N( 0,1) 


Si l’on admet que n = 5 000 est une taille suffisamment 
importante pour que cette approximation soit valide, la va¬ 
riable Y suit asymptotiquement une loi normale centrée ré¬ 
duite : 

X — 1 000 asy 
Y= - — J N( 0,1) 

Vsüô 

3 . On cherche un seuil N tel que : 

Pr (X > AO < 0,975 

On sait que : 

N 


Pr(X> A0 = Pr y> 


1000) 

V8ÔÔ / 


< 0,025 


Si l’on admet que Y suit approximativement une loi normale 
centrée réduite, il vient : 


1 - Pr \Y< 


N - 


1000\ 

W) ) 


0 


V8ÔÔ 

N- 1000\ 


< 0,025 


Vsüô ! 


> 0,975 


où 0 (.) désigne la fonction de répartition de la loi normale 
centrée réduite. Nous savons que : 

0,975 = 0(0-' (0,975)) = 0(1,96) 

Ainsi, on obtient une relation du type : 

/IV- 


1000 \ 

V8ÔÔ I 


> 0(1,96) 


Puisque la fonction de répartition 0 (.) est croissante : 


V8ÜÔ 

On en déduit : 

N > 1,96 x V8ÔÔ + 1 000 = 1 054 

Convergences 

Soit ( X n ) une suite de variables aléatoires discrètes telles que 
Vn> 2: 


Pr(X„ = -n) = Pr (X„ = n) = Tj 

Pr (X„ = 0) = 1 - 4 
n z 

1. On fait l’hypothèse que la limite en probabilité de la suite 
( X n ) est égale à 0. 



Cette hypothèse est vraie si et seulement si Ve : 

lim Pr (|X„ - 0| > s) = 0 

n—*oo 

ou de façon équivalente lorsque : 

lim Pr (|X„ - 0| < e) = 1 

n—*oo 

Or, par définition, si l’on fait tendre s vers 0, il vient : 

Pr(|X„ - 0| < s) = Pr(|X„| < e) = Pr(X„ = 0) = 1 - \ 

n L 

Ainsi, on obtient : 

lim Pr (|X„ - 0| < s) = lim 1 —\ = 1 

n—*oo n—*oo n 1 

On en déduit que : 

x„4o 

2. La suite (X n ) converge en moyenne quadratique vers 0 si et 
seulement si : 

limB( \X„ - 0| 2 ) = limB(|X„| 2 ) = hmE(X 2 ) = 0 

n—*oo n—* oo n—*oa 

Or, par définition : 


E(X 2 ) = £VPr(X = i) 

= 0 2 Pr(X = 0) + Yj i 2 Pr(X = i) + i 2 Pr(X = i) 

i> 0 i<0 


II 

M 

Pr (X 

= /)+V/ 2 Pr (X = -i) 

i>0 


i> 0 

II 

M 

2 

2fl > 

0 

i> 0 


Donc il n’y 

a pas 

de convergence en moyenne quadratique 


vers 0. 
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Statistique et probabilités 


Théorème central limite 


1. Soit X; la variable binaire valant 1 si le passager i se pré¬ 
sente à l’embarquement et 0 sinon. La variable X, suit une 
distribution de Bemouilli de probabilité p - Pr(X f - = 1) = 
0,90. Les variables X, sont indépendantes, donc la variable 
S n définie par : 


Sn = ŸjX, 


suit une loi binomiale S (n\ 0,90). Par définition : 

E (S n ) = np = 0,9 n 
Y (S n ) = np(l - p) = 0,09rz 

2. Les variables X, sont i.i.d. avec E(X,) = p = 0,9 et 
Y(Xj) = p(\ — p) = 0,09. Par application du théorème 
central limite de Lindeberg-Levy il vient : 




N( 0 ,p(l-p)) 


Pour n grand mais fini, on a donc : 




N(0,p(\-p )) 


ou encore : 


S„ as y ... 

— ~ N\p 

n ' 


Pd ~p) \ 


Finalement, il vient : 


S„ » N(np,np( 1 - p)) o 


S „ - np 
y/np( 1 - p) 


N ( 0 , 1 ) 


ou encore 


S n — 0,9/7 asy 


N(0,1) 


0,3 Vïï 

Le directeur commercial de la compagnie aimerait 
connaître la valeur maximale de n telle que : 


Pr(S„ < 300) > 0,99 


Par définition : 

Pr(S„ < 300) : 


Pr 


S„ 


- 0,9 n 300 - 

< 


0,3 Vïï 
/ 300 - 0,9» ) 
\ 0,3 V” / 


0,3 V» 


1,9» \ 

T, ) 


où 0 (.) désigne la fonction de répartition de la loi normale 
centrée réduite. On a donc : 


<Z> 


( 300-0 


> 0 ( 0 -' (0,99)) = 0(2,3263) 
n J v ’ 


\ 0,3 Vïï 

Puisque la fonction 0 (.) est croissante : 

300 - 0,9/2 0 

- > 2,3263 

0,3 yfn 

On obtient l’équation : 

-0,9 n - 0,6979 yfn + 300 > 0 

En posant x = yfn , on obtient une fonction du second de¬ 
gré à étudier et l’on cherche le plus grand x pour lequel elle 
est positive. Le plus grand n pour lequel cette quantité est 
positive est 316. 


I Chapitre 9 

Propriétés d'un estimateur 

a. Faux. Un estimateur sans biais n’est pas nécessairement ef¬ 
ficace. 

b. Faux. Un estimateur sans biais n’est pas nécessairement 
convergent. Il n’est convergent que si variance tend vers 
zéro lorsque la taille d’échantillon tend vers l’infini. 

c. Vrai. Puisque la convergence presque sûre implique la 
convergence en probabilité. 

d. Faux. Un estimateur biaisé peut être convergent s’il est 
asymptotiquement non biaisé. 

e. Vrai. La comparaison de la variance de l’estimateur à la 
borne FDCR ne s’applique que pour des estimateurs sans 
biais. Un estimateur efficace est donc sans biais. 

Variance empirique 

a. Vrai. La variance empirique (corrigée ou non corrigée) est 
un estimateur de la variance. 

b. Vrai. 

c. Faux. Seule une transformée de la variance empirique cor¬ 
rigée a une distribution exacte du khi-deux. 

d. Faux. Le nombre de degrés de liberté est n - 1 et non n. 

e. Faux. En raison de la correction de petit échantillon, on a 

i=l 

Comparaison d'estimateurs 

a. Vrai. L’estimateur 6 \ est préféré à 62 si sa variance est plus 
faible. 

b. Faux. Ce n’est parce que V(#i) < Y( 62 ), que la variance de 
6 \ atteint la borne FDCR. 

c. Vrai. Si la variance de 9\ atteint la borne FDCR, alors la 
variance de tout estimateur sans biais estjiécessairement 
égale ou supérieure à celle de l’estimateur 6 \. 

d. Vrai. L’optimalité implique généralement l’efficacité, mais 
la réciproque n’est pas vraie puisque l’efficacité requiert 
d’effectuer un certain nombre d’hypothèses sur la distribu¬ 
tion des variables de l’échantillon. 

e. Faux. La convergence au sens faible n’implique pas néces¬ 
sairement l’efficacité. 

Intervalle de confiance 

a. Vrai. C’est la définition d’un intervalle de confiance. 

b. Vrai. 

c. Vrai. En effet, plus l’estimateur est précis, plus la réalisa¬ 
tion de l’intervalle de confiance sera concentrée autour de 
la vraie valeur du paramètre. 

d. Vrai. En général, le niveau de risque a est inférieur à 50 %. 

e. Faux. C’est la réalisation d’un intervalle de confiance pour 
un échantillon donné qui se ramène à un segment de deux 
valeurs réelles. 
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Corrigés 


Estimation et loi de Rayleigh 

1. La variable Y 2 1er 2 peut s’écrire sous la forme : 



Les variables Xi/cr et X 2 / 0 " suivent des lois normales cen¬ 
trées réduites N (0,1). Par conséquent, les variables Xf/cr 2 
et Xj/cr 2 ont une distribution du khi-deux à un degré de li¬ 
berté. Puisque ces variables sont indépendantes, la somme 
Xf/cr 2 + X 2 /cr 2 admet une distribution du khi-deux à deux 
degrés de liberté. 



Etant données les propriétés de la loi du khi-deux, on sait 
que si X ~ x 2 ( v ), alors E (X) = v et Y (X) = 2v. On en 
déduit que : 

E (5) = i E ( y2 ) = 2 «=» E ( y2 ) = 2<r2 

v ( 5 ) = i v ( y2 )= 4 ~ v ri 2 )= 4 - 4 

2. On étudie la quantité E(cr 2 ) : 



puisque les variables Y\,...,Y n sont i.i.d., de même loi que 
Y, avec e(l 2 ) = 2CT 2 . L’estimateur tr 2 est sans biais. 

3. Nous savons que l’estimateur est sans biais : 


E ((T 2 ) = cr 2 


Par ailleurs : 


v (^) 



1 

4 n 2 




n X 4 cr 4 
4n 2 



n 


puisque les variables Y\ . Y n sont i.i.d. avec v(y 2 ) = 

4<x 4 . Dès lors : 

limV (cr 2 ) = lim — =0 

n—>00 V > n —>00 n 

On peut en déduire que l’estimateur est convergent (au sens 
faible) : 

4. Les variables Y 2 ,...,Y 2 sont i.i.d. avec E(y 2 ) = 2 cr 2 et 
v(y 2 ) = 4a- 4 . Par application du théorème central limite 
de Lindeberg-Levy, il vient : 



i yv(o,4o- 4 ) 


Or, l’estimateur cr 2 vérifie : 

. n 1 n 


où la fonction g (.) est définie par g (x) = x/2. Cette fonction 
est continue et continûment différentiable, avec dg (x) /dx = 
1/2. Par application de la méthode delta chapitre 6), il 
vient : 



ou de façon équivalente : 



Après simplification, on obtient : 

yfn (œ 2 - cr 2 ) 4 N (0,cr 4 ) 

5. Le résultat précédent signifie que pour une taille d’échan¬ 
tillon n suffisament grande, mais finie : 



La variance asymptotique de l’estimateur cr 2 est donc 
égale à : 



6. Ici nous avons : 



La variance de l’estimateur cr 2 atteint la borne FDCR : l’es¬ 
timateur est efficace. 


Loi exacte et loi asymptotique 


1. Puisque Z,- ~ N (0,1), la variable Z 2 suit une loi du khi- 
deux à un degré de liberté. Les variables Z 2 sont indépen- 

n 

dantes, donc la variable D n = ^ zf suit une loi du khi- 

i=i 

deux à n degrés de liberté : D n ~ x 2 (rc). 

2. Puisque Z 2 ~ ^ 2 (1), on a E (z 2 ) = 1 et ¥ (zfj = 2. Les va¬ 
riables zf sont i.i.d., donc nous pouvons appliquer le théo¬ 
rème central limite de Lindeberg-Levy : 



>Æ(—- l)4 JV(0,2) 


3. On note F n (x) la fonction de répartition d’une loi^ 2 ( n ). 
En utilisant la loi exacte^ 2 (100), on obtient : 

Pr (D n > 118,49) = 1 -Pr(D„ < 118,49) 

= 1-Fk» (118,49) 

= 1-0,90 = 0,1 

où F 100 (.) désigne la fonction de répartition d’une loi du 
khi-deux à 100 degrés de liberté. La loi asymptotique de D„ 
peut s’écrire sous la forme suivante : 


D n asy 

— ^ N 
n 



ou D n « N (n,2n) 
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Statistique et probabilités 


Si l'on admet que pour n = 100 cette approximation est 
valide, il vient : 


Pr(D„ > 118,49) = l-Pr(D„ < 118,49) 

(D, 


1—Pr 


1 - <2> 


n 118,49-n 

< 


Vin Vin 
/ 118,49- 100 ) 

l VIÔÜ / 


VIÔÜ 

= 1 - 0(1,308) 

* 0,0954 

où 0 (.) est la fonction de répartition de la loi normale cen¬ 
trée réduite. 


Comparaison d'estimateurs 

1. Calculons E et E (# 2 ) • 

E (^)=i£ E «)=iÊ B ®= e 


®&)=H u { x ?)=lt E ( x2 ) 

ï=i 1=1 

Or on sait que 

e(z 2 ) = v(X) + E(x) 2 = g- g 2 + g 2 = g 

Il vient donc : 

E(?i) = 0 fl(g 2 ) = g 

Les deux estimateurs sont sans biais. 

2. Calculons V(#ij et Y(# 2 )- Puisque les variables X,- sont 
i.i.d., on a : 


v(?i) = 


J]v(a:,) 

i= 1 



g-g 2 

n 


v(g 2 ) = 


Z V K) 


Dans les deux cas, on a : 


E v (* 2 ) 


1e 2 - 2 e 4 

n 


limV(gi) = limV(? 2 ) = 0 

Les deux estimateurs sont donc convergents au sens de la 
convergence en probabilité. 

3. On sait que 


Dès lors : 

v(ëi) _ g(i-g) _ i 

V(? 2 ) " 2g 2 (1 - g 2 ) “ 2g ( 1 + g) 

avec G e [0,1]. Donc on ne peut pas déterminer si Y > 
Vfe) ou si V(#iJ < Y (# 2 ) puisque la position du ratio 
Y /V (# 2 ) rapport à 1 dépend de la vraie valeur de 0 
qui est inconnue. 



4. D’après le théorème central limite, on a : 
yfn 


1 n \ ^ 

-V Xi-E(X) 4iV(0,Y(I)) 

n U J 


Donc 


V«(êi - a) 4 A^O.g-g 2 ) 

De la même façon : 


vs 


i^?-E(4)]4w(0,¥(l 2 )) 


Donc 


V« (g 2 - ff) 4 AC (0,2g (1 + g)) 


Estimation 

1. Calculons l’espérance de l’estimateur g : 

f 


E(g) = E|ln(c)- iglnpOj 
1 " 

= ln (c)-VE (ln (A))) 

n U 

= ln (c) - - V (ln(c)-g) 
n 


= G 

L’estimateur G est sans biais. 

2. La séquence de variables aléatoires i.i.d. ln (Xi)ln (X n ) 
vérifie E (ln (X,)) = ln ( c)-G . D’après la loi faible des grands 
nombres : 

1 " 

- y ln (X^ 4 E (ln (Xj)) = ln(c) - g 

n 4-^ 

1=1 

En utilisant le continuons mappin theorem pour une fonc¬ 
tion g (z) = ln (c) - z, on obtient : 


fi v- 


-g,™, 


’ g (ln (c) - g) 


ou de façon équivalente : 

1 ” 

ln (c)-V ln (X,-) A ln (c) - ln (c) + G 

n U 

Par conséquent : 

G-U G 

L’estimateur G est convergent (au sens faible). 


I Chapitre 10 

Vraisemblance et log-vraisemblance 

a. Vrai. La log-vraisemblance d’un échantillon correspond au 
logarithme de la vraisemblance de l’échantillon. 
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Corrigés 


b. Faux. Pour une variable continue, la vraisemblance d’un 
échantillon correspond à la densité jointe des variables de 
l’échantillon. 

c. Faux. La log-vraisemblance d’un échantillon est égale à 
la somme des vraisemblances individuelles associées à 
chaque observation de cet échantillon. 

d. Faux. La log-vraisemblance d’un échantillon est une 
constante puisqu’elle dépend des paramètres (quantités dé¬ 
terministes) et de la réalisation de l’échantillon. 

e. Vrai. La vraisemblance d’un échantillon dépend de deux 
arguments : le vecteur de paramètres et les données de 
l’échantillon. 

Estimateur du maximum de vraisemblance 


a. Faux. L’estimateur du maximum de vraisemblance, comme 
tout estimateur, est une variable aléatoire. 

b. Vrai. L’estimateur du maximum de vraisemblance est une 
fonction des variables aléatoires de l’échantillon. 

c. Faux. Au sens strict, la solution du programme de maxi¬ 
misation de la log-vraisemblance correspond à une réalisa¬ 
tion de l’estimateur du maximum de vraisemblance (esti¬ 
mation). On en déduit ensuite un estimateur (variable aléa¬ 
toire). 

d. Vrai. Le gradient de l’échantillon, évalué au point de la réa¬ 
lisation de l’estimateur du maximum de vraisemblance, est 
égal à zéro. 

e. Faux. La hessienne associée à l’échantillon est alors une 
matrice de dimension 3x3. 

Score, hessienne et information de Fisher 


a. Vrai. On peut définir le gradient comme une réalisation du 
score. 

b. Vrai. Par définition, l’espérance du score est nulle quelle 
que soit valeur du paramètre. 

c. Vrai. C’est l’une des deux définitions de l’information de 
Fisher associée à l’échantillon. 

d. Vrai. Par construction, l’information de Fisher de l’échan¬ 
tillon est égale à l’information de Fisher moyenne multi¬ 
pliée par la taille de l’échantillon. 

e. Faux. Ceci n’est vrai que dans le cas de lois margi¬ 
nales. Dans le cas de modèles économétriques (lois condi¬ 
tionnelles), l’information de Fisher moyenne correspond 
à l’espérance (par rapport aux variables explicatives X) 
de l’information de Fisher associée à une observation de 
l’échantillon. 


Propriétés de l'estimateur du maximum de vrai¬ 
semblance 

a. Faux. L’estimateur du maximum de vraisemblance est sans 
biais, uniquement lorsque les hypothèses de régularité sont 
satisfaites. 

b. Faux. Sous les hypothèses de régularité usuelles, l’estima¬ 
teur du maximum de vraisemblance est convergent au sens 
faible. 

c. Vrai. Sous les hypothèses de régularité, l’estimateur du 
maximum de vraisemblance est asymptotiquement norma¬ 
lement distribué. 

d. Faux. Sa variance asymptotique est égale à la borne FDCR. 

e. Faux. La variance asymptotique de l’estimateur du maxi¬ 
mum de vraisemblance est égale à V inverse de la matrice 
d’information de Fisher associée à l’échantillon. 


Maximum de vraisemblance 


1. Puisque le paramètre fi est connu, nous exprimons le loga¬ 
rithme de la densité de X en fonction uniquement du para¬ 
mètre inconnu cr 2 : 

1 nf x {x-,cr 2 ) = -lnx- iln(cr 2 )- ^ln(27r)- 

Puisque les variables X\ . X n sont indépendantes, la log- 

vraisemblance de l’échantillon (xi.x„) est : 

4 (cr 2 ; x) = ln L n (cr 2 ; x) = ^ ln f x (x,-; cr 2 ) 

;=i 

On obtient : 

e„ (o- 2 ; x) = -jr lnjc, - ^ li^cr 2 ) 

1=1 

- j ln (2 jt) - 2- ^ (ln x, - n) 1 
1=1 

2. L’estimateur du maximum de vraisemblance est défini par : 

cr 2 = arg max 4 (cr 2 ; x) 

0-2<ER+ V 7 

Pour simplifier la dérivation de la log-vraisemblance, on 
pose 6 = cr 2 . 


n 

(cr 2 ; x) = - ^ ln x t - ^ ln (9) - ^ ln(2 n) 


1 

29 


X Un Xj-fi ) 2 
1=1 


La condition du premier ordre (équation de log- 
vraisemblance) est : 


CN : g„ (î,x) 


d(„ (cr 2 ;*) 


de 


g 


n 

26 



a*) 2 = 0 


D’où l’on tire que : 


e = a 2 = - V (ln Xi-g ) 1 

n 
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On vérifie qu’il s’agit d’un maximum : 


CS : H„ (0,x) = 


d 2 i„ (cr 2 ;; 


de 2 


= 4L-1 Y (lin 
_ 2e 2 03 




Sachant que X (ln (x,) - /j) 2 = 77 X 0, on obtient : 

;=i 

d 2 („(cr 2 ',xj n n x9 n n 

d 9 2 _ 2? 2 03 2? 2 25 * 

B 

On a bien un maximum. Par conséquent, l’estimateur du 
maximum de vraisemblance <? 2 du paramètre u 2 est défini 
par : 


<0 


o 2 = - Y (ln X, - fj.) 2 
n 


3 . Calculons l’espérance de l’estimateur cr‘ 

i ^ 


E (^) = B U JdnX,--^) 2 = I ^E(anX i - / t) 2 ) 

V 1=1 / 1=1 

1 n J " 

= - VE((lnX, -E(lnA: i )) 2 )= -^V(lnX,-) 

i— 1 i— 1 

Puisque V(lnX,) = a 2 , nous obtenons : 

„ /_n\ nx a 2 9 

Efcr 2 ) = - = tr 2 

V / y. 


L’estimateur cr 2 est sans biais. 

4 . Il y a plusieurs façons de montrer ce résultat. Une fa¬ 
çon consiste à utiliser la loi faible des grands nombres 
(► chapitre 8). La séquence de variables (ln X, - /j) 2 est i.i.d. 
avec une espérance égale à : 

E((lnX, -rf) = E((lnX,- - E (ln X,-)) 2 ) = V(lnX,) = cr 2 

D’après la loi faible des grands nombres, la moyenne empi¬ 
rique de variables i.i.d. converge en probabilité vers l’espé¬ 
rance : 

â 2 = - X (lnX, -ju) 2 4 E((lnX, -/j) 2 ) = a 2 


L’estimateur cr 2 est convergent au sens faible. 
5 . Le score associé à l’échantillon est défini par : 


S„ o- 2 ,X = 


d( n ( a r2 ;xj 


dcr 2 


+ i £ (ln *--^ )2 


2 cr 2 2 cr 4 


Par conséquent : 

e(s„ (ct 2 ,x)) = -44 + ±. J E ((lnX, -tf) 


n nx cr 2 n ,, 9 
■ +-— =0 Ver 2 e ] 


2cr 2 2a 4 


6. La quantité d’information de Fisher associée à l’échantillon 
est égale à : 


I^cr 2 ) = E (-//„(, 



«Ri 

J 

n 

+ ^6 X (lnX ' 
1=1 


n 

~ ~lü 4 + 

^6 L E ((In JC,- 
1=1 

-,Ÿ) 

n 

nx cr 2 n 


2o* + 

cr 6 1er 4 



La quantité moyenne d’information de Fisher est égale à : 



7 . La fonction ln fx (x; cr 2 ) satisfait les hypothèses de régula¬ 
rité. Par conséquent, l’estimateur du maximum de vraisem¬ 
blance est asymptotiquement normalement distribué : 

(cr 2 - cr 2 ) -i N (0,I -1 (cr 2 )) 

où i(ct - 2 ) correspond à la quantité moyenne d’information 
de Fisher. Ainsi, nous avons : 


yfn (cr 2 - cr 2 ) -i N (o,2cr 4 ) 
ffisammt 

■■£) 


Pour une taille d’échantillon suffisamment grande mais fi¬ 
nie, ce résultat implique que : 


AC 1er 2 


as y 


8 . La variance asymptotique de l’estimateur cr 2 est égale à : 

2cr 4 


Vasy ( ô 2 ) = 


La borne FDCR est définie par l’inverse de la quantité d’in¬ 
formation de Fisher associée à l’échantillon : 


ï'H- 


2cr 4 


L’estimateur cr 2 est asymptotiquement efficace puisque : 
v asy {ï? 2 ) = i; l (<T 2 ) = ^ r 

9 . Un estimateur convergent de cette variance asymptotique 
est donné par : 

— /_ 9 \ 2cr 4 

Un autre estimateur basé sur la hessienne (dérivée seconde 
de la log-vraisemblance) est donné par : 

V aS y (E? 2 ) X ^ ( ? ’ X ')j = ^ + fi anXi ~ ll)2 


Asymptotiquement, les deux estimateurs donnent la même 
valeur, mais à distance finie ils peuvent fournir des estima¬ 
tions différentes. 


24 


sigmakutub.blogspot.com 


© Dunod, Paris 2015 













© Dunod. Toute reproduction non autorisée est un délit. 


Corrigés 


Maximum de vraisemblance 

1. On sait que les variables (X\,...,X^) sont i.i.d. de même 
loi que X. Dès lors, la log-vraisemblance associée au n- 
échantillon( X\,..,Xm ) s’écrit : 

4 (/?;*) = ln L n (fi; x) 

n 

i=l 

n i n 

= (a - 1) ^ ln (xJ - - ^ x, 
i=i P i=i 

-n ln ( r (û')) - na ln (J3) 

2 . Le gradient est défini par : 

de„(fj\x) 1 na 

cjn (P\x) = = 02 L X ' ~ -J 


dp 

La hessienne est définie par : 

d 2 t n (P\x) 


H,AP,x) = 


dp 2 


T n 

1 v-i na 

'¥éf Xi + ¥ 


3 . Le score associé à l’échantillon est égal à : 

d(„(P\X) 1 ^ .. na 


S„ (P',X) = 


dp 




P 


Son espérance est égale à : 

E (S n (P‘X)) = E 


na 

J 


i n 

t n 

1 v i na 


P- ,=1 

na/3 na 

4 . Soit [3 l’estimateur du maximum de vraisemblance du para¬ 
mètre y 3 . Ce dernier vérifie : 

p = arg max4 x) 

y3eR+ 

La condition nécessaire du programme d’optimisation de la 
log-vraisemblance (équation de log-vraisemblance) s’écrit : 




na 

X ; - — = 0 


D’où l’on tire que : 


p(x)= — t Xi 

an 


i= 1 

La condition suffisante se déduit de H, 
2 


H ri 




na 

72 


2an(3 na an 

- _ + — = -—< 0 

y? 3 p 2 p 2 


puisque le paramètre cr est positif et p est positif (moyenne 
de réalisations x, positives). L’estimateur du maximum de 
vraisemblance (variable aléatoire) est défini par : 


i " 
an ' 


5 . 


Calculons E ® : 


^ 1 vh \ 1 f ; nap 

bÇs) = e — Vx ( - = —VE(X i ) = -^ =p 

v ' \ an 4-^ / crn 4-^ cnn 

v 1=1 / 1=1 

L’estimateur/? est sans biais. 

6. Puisque les X, sont i.i.d. de même loi que X, il vient : 

vÇ§) = v(-!-= J_^ V( x,)= ^ = 

v ' an I a L n L a L n L 

1=1 / i=i 


ÊL 

an 


Par conséquent : 


limVffl = lim— =0 

n-*oo \ > »oo an 


Sachant que par ailleurs E = p, on en déduit que p est 
un estimateur convergent (au sens faible) de p : 

p^p 

7 . La quantité d’information de Fisher associée à l’échantillon 
est définie par : 

I n (P) = Y(S n (P; X)) = E (~H n (p ; X)) 

D’après les résultats de la question 2, il vient : 

_( 2 7 na\ 2 7 x na 

® b§*' " n = p Tt ~ ¥ 

2 nap na na 

~ p 3 ~ fi 2 ~ p 2 
Dès lors : 

£_ 

an 

L’estimateur du maximum de vraisemblance p est efficace 
au sens de la borne FDCR. 

8. Les variables du «-échantillon (Xi,...,X„) sont i.i.d. avec 
E(X ( ) = ap et Y(X,) = ap 2 . D’après le théorème central 
limite : 

/ J n ^ 

7 - E x > - E (xd J ^ N (0 ’ v (Z)) 


vÇs) = ç 1 iP)= — 

v ' an 


ou encore : 


^ d 


( \ n i 

V« ^ Xi - ajsj 4 N ( Q, a p 2 ) 

On en déduit la loi asymptotique de l’estimateur p = 

n 

(an)' 1 ^ X, par la méthode delta en posant p = g (x„) avec 

i=i 

g (x) = x/a et dg (x)/dx = 1 /a. 

d 


0 ,afr 


V« (d (x n ) - g (api) -> N 
On obtient finalement : 


l dx 


U) 
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9 . Le problème est régulier, dès lors : 


>Æ(58-/3)4jv(o,IGSr 1 ) 


où \{fi) désigne la quantité d’information moyenne de 
Fisher, définie par : 


1 ( 0 ) = 



On en conclut que : 


On retrouve la même loi asymptotique qu’à la question pré¬ 
cédente. 

10 . On sait que pour a = 2 : 



Sachant que dans cet échantillon, on obtient xn = 4, la réa¬ 
lisation de l’estimateur du maximum de vraisemblance est 
égale à : 


/JW = 2 


I Chapitre 11 

Règle de décision d'un test statistique 

a. Faux. Un test statistique est une règle de décision qui porte 
sur le rejet ou le non rejet de l’hypothèse nulle. 

b. Faux. Le rejet de l’hypothèse nulle n’implique pas néces¬ 
sairement l’acceptation de l’hypothèse alternative. 

c. Faux. Même si l’on ne rejette pas l’hypothèse nulle, cela 
ne signifie pas nécessairement que l’on accepte l’hypothèse 
nulle ou que cette hypothèse est vraie. 

d. Vrai. C’est précisément ce que l’on peut conclure d’un test. 

e. Faux. Le rejet ou le non rejet de l’hypothèse nulle dépend 
du niveau du test. 

Région critique d'un test 

a. Vrai. C’est la définition de la région critique. 

b. Vrai. Comme toute statistique, une statistique de test est 
une fonction des variables aléatoires de l’échantillon, c’est 
donc une variable aléatoire. 

c. Faux. Ce n’est pas toujours le cas. On peut définir un test à 
partir d’une transformée d’un estimateur du paramètre dont 
on connaît la loi sous l’hypothèse nulle. 

d. Vrai. 

e. Vrai. C’est précisément la règle de décision d’un test. 

Niveau et puissance d'un test 

a. Faux. Le niveau d’un test correspond à la probabilité de re¬ 
jeter à tort l’hypothèse nulle. 

b. Faux. Cela dépend de la forme de la région critique. 

c. Vrai. C’est ainsi que l’on résout l’arbitrage entre le risque 
de première espèce et le risque de deuxième espèce en fonc¬ 
tion de la valeur critique du test. 

d. Vrai. C’est la définition de la puissance qui correspond à un 
moins la probabilité de risque de deuxième espèce. 


e. Faux. C’est la puissance d’un test convergent qui tend vers 
l’unité lorsque la taille d’échantillon tend vers l’infini. 

Test paramétrique et lemme de Neyman-Pearson 

a. Vrai. C’est la définition de l’objet du lemme de Neyman- 
Pearson. 

b. Faux. La région critique sera la forme W= {x : 9(x) < c }. 
C’est lorsque la réalisation 6 (x) est relativement petite, par 
rapport à la valeur critique, que l’on rejette l’hypothèse 
nulle. 

c. Faux. La région critique est de la forme W= {x : |0(x) _ 
#o| < c}. Lorsque la distance 1 6{x) — #o| (en valeur absolue) 
excède la valeur critique, on rejette l’hypothèse nulle. 

d. Faux. Il n’existe pas de test UPP dans le cas d’un test bila¬ 
téral. 

e. Faux. C’est la région de non rejet d’un test bilatéral de ni¬ 
veau a qui correspond à l’intersection des régions de non 
rejet des tests unilatéraux associés de niveau a/ 2. 


Tests paramétriques 

1. La log-vraisemblance associée à l’échantillon (xi. x „) 

s’écrit : 

4 (cr 2 ; x) = ln L„ (a 2 \ x) = (x,)-n ln (cr 2 )-^ L 

1=1 1=1 

D’après le lemme de Neyman-Pearson, la région critique du 
test UPP de niveau a est déterminée par : 


W = 


l J 


où k est une constante déterminée par le niveau de risque de 
première espèce a. Cette inégalité peut se réécrire sous la 
forme : 


4 ((7^ ; x) - 4 (o-? ; x) < ln (k) 

1 1 U 


'»(l°g(o-?)~log(o-j;)) 




|> 2 <ln W 


^ - ri ) 1 V 2 - ; 

L x î <ki 


o- 2 0 o-\ 


avec k\ = ln (k)-n (log [cr \j - log (Oq)). Puisque dans notre 


r ? > 


i " 


OÙ C — k\(Tÿ — cr 2 ^nj. La région critique du test 

UPP de niveau a est de la forme : 

W = {x|r„(x)>c} 

où c est une constante déterminée par le risque de première 
espèce. 
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Corrigés 


2 . La distribution asymptotique de la statistique de test T n sous 
l’hypothèse nulle Hq : cr 2 = ctq est : 


T n 




T »-cl 


A/'(0,1) 


Par définition du risque de première espèce : 

a = Pr(W|H 0 ) = Pr (T„ > c(H 0 ) 


= 1 - Pr 


o-q/ Vïï ajj \fn 


H( 


= \ - 0 \ 


( c ~ ^ 


/VïïJ 


où 0 (.) désigne la fonction de répartition de la loi normale 
centrée réduite. D’où l’on tire que : 


1 - a = 0 


c-o^ 


La valeur critique associée à un niveau a 
à : 

0 


Vïï 


Il vient : 


c = 2 + 0 


1 (0,95) x —— = 2 + 1,64 x —— 
V5ÜÔ V5ÜÔ 


> est égale 
(*) 

= 2,14 


La région critique du test UPP de niveau a = 5 % est définie 
par : 

W = {x\T n (x)>2M) 

3 . Sous l’hypothèse alternative Hi : cr 2 = cP[ = 2,1, la distri¬ 
bution asymptotique de la statistique de test T n devient : 


asu . A o-i 

T„ «"Ark.-L 


ï)' 




CTj/ y/n H \ 


( 0 , 1 ) 


Par définition de la puissance, Pr ( W| Hi), on a : 

Puissance = Pr ( T n > c\ Hi) 

T„-cr\ c-oj 
< 


1 - Pr 


1 - O 


[trJ/Vnj 

On a donc une puissance égale à 


(t\I \[n rf/y/ri 
( C - crj ) 




Puissance =1-0 


/ 2,14 — 2,1 \ 

V 2,1/V50Ü / 


1 - 0 (0,42) 


= 1 - 0,66 = 0,34 


Avec cette règle de décision, il y a 34 % de chances de re¬ 
jeter l’hypothèse Ho : cr 2 = Oq = 2 lorsque l’hypothèse 
Hi : cr 2 = o\ = 2,1 est vraie dans la population. 

4 . En remplaçant c par son expression (équation (*)) dans la 
puissance (équation (**)), il vient : 


Puissance =1-0 






+ -4 0~ l (1 -a) 


\ 




On vérifie que si a\ tend vers <xj^, alors la puissance tend 
vers le risque de première espèce a (le test est non biaisé). 


De plus, puisque Oq < orj, si n tend vers l’infini, la puis¬ 
sance tend vers l’unité. En effet : 


lim 

n—*oo 




<T 


2 

1 


<ri/ V» 


Par conséquent, Ver, xj^.ona: 


1 - lim0 - 


l <t\I y/n 


2 2 

r + -4^-‘(l-a) 


1 - 0 (— Oo) 
1 - 0=1 


Le test est convergent. 

La réalisation de la statistique de test T n (x) est égale à : 




2 070 
2x500 


2,07 


La région critique du test pour un niveau a = 5 % est 
W= {;t| T fl (x) > 2,14}. La réalisation de la statistique de 
test n’appartient pas à la région critique. Par conséquent, on 
ne peut pas rejeter l’hypothèse nulle Ho : cr 2 = 2 pour un 
seuil de risque de 5 %. 

La région critique du test Ho : cr 2 = ctq contre Hi : cr 2 = cr\ 
ne dépend pas de la valeur de o\. La région critique du test 
UPP unilatéral Ho : cr 2 = <Xq contre H[ : cr 2 > cr^ est 
identique : 

w = [x\ T„ (x) > oî + 0 l (1 - a) kl 

l 

= {x\T n (x) > 2,14) 


La région de non rejet du test bilatéral de niveau a est défi¬ 
nie par l’intersection des régions de non rejet des tests uni¬ 
latéraux UPP de niveau a /2 : 

Test A : Ho : (T 2 = (Jq contre Hi : cr 2 > cr^ 

Test B : Ho : o -2 = erp contre Hi : cr 2 < cr\ 

Soient et Wg les régions de non rejet associées : 

= {x\T„(x) <2,17} 

= { x\ T n (x) > 1,83} 


La région de non rejet W = nWg et la région critique 
W du test bilatéral de niveau a = 5 % sont donc respective¬ 
ment définies par : 

W = {x\ 1,83 <r„(*)< 2,17} 

W = U|r„(*) £ [1,83;2,17]} 

De façon générale, la région de non rejet peut aussi s’écrire 
sous la forme : 
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La région critique du test bilatéral de niveau a est alors dé¬ 
finie par : 


W = { x\ 


cr^/'Jn 

Tests paramétriques 


> <P 


'(-?) 


1. Les variables X\ . X n sont i.i.d., par conséquent la log- 

vraisemblance associée à l’échantillon (xi. x n ) est égale 

à : 


e n (fi\x) = Ÿ À \n f x (xr,e) 

i= 1 

4 -*) 


ln f x {xù G) = - ln (0) - - ln (c) + 
G 


Ainsi, on obtient 


i n (0; x) = -n ln (0) - - ln (c) + 
0 


ln (x^ 


ln (xj) 


2 . L’estimateur du maximum de vraisemblance 0 du paramètre 
0 vérifie : 

G = arg max t n (0; x) 

0€R+ 

La condition nécessaire (équation de log-vraisemblance) 
est : 


0/ 


r„ (?; x) = 


d(„ (G; x) j 

se [ 


î 

= + =r ln (c) - V ln (x,) = 0 

GG 2 G 2 

En résolvant cette équation, il vient : 


— 1 " 

G = ln (c) - - V ln (. x t ) 
n 


La condition suffisante de ce programme est : 
d 2 e„ (0; x) 


H„ (0; x) 


dG 2 


n 2n( 1 ^ 1 

= ~ ~ =r ln (c) - 
? G 2 03 1 


En utilisant les résultats de la condition nécessaire, il vient : 
n 2 n 


H, 




;aire, 

1 « \ 
ln(c) - - y ln(*i) 


0 2 0 3 

n 2«0 

? 2 ? 3 

n 

= -— <0 
0 2 

Nous avons donc un maximum. L’estimateur (variable aléa¬ 
toire) du maximum de vraisemblance 0 du paramètre 0 est 
égal à : 


— i " 

0 = ln(c)--V ln(X t ) 
n 


3 . La séquence de variables aléatoires i.i.d. ln(Xi)ln(X„) 
vérifie E (ln (X,-)) = ln (c)—0. D’après la loi faible des grands 
nombres : 

1 " 

- y ln (Xj) —> B (ln (Xj)) = ln (c) - 0 

i=i 

En utilisant le continuous mappin theorem pour une fonc¬ 
tion g (z) = ln (c) — z, on obtient : 


0 


1 ” \ 

E ln PO j —> g (ln (c) - 0) 


ou de façon équivalente : 

1 ” 

ln (c)-V* ln (X,-) A ln (c) - ln (c) + 0 

n 

i=i 

Par conséquent : 


L’estimateur 0 est convergent (au sens faible). 

4 . Puisque le problème est régulier, nous avons : 

V«( 0 - 0 ) 4 jv(o,r‘( 0 )) 

où 0 désigne la vraie valeur du paramètre et I (0 q) corres¬ 
pond à la quantité d’information de Fisher moyenne. 

1(0) = - X I„ (0) 


I„(0) = E(-//„(0;X)) 

2 n (. 


w 


I n 2n I 1 v~i ri 

1 " 


n 2 n 
fi + 03 


^ + ^( ln (c)- 1 n(c) + 0) 

« 2/i0 

fi + if 


e 2 

Par conséquent : 

Vn(ê-0) 4 Af(o,03) 

ou de façon équivalente : 


G a * N\G., 


-î) 


5 . D’après le lemme de Neyman Pearson, la région critique du 
test UPP de niveau a est donné par : 


L„(G 0 ;x) 
L„ (0i ; x) 


< K 
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Corrigés 


où K est une constante déterminée par le niveau a ou de 
façon équivalente : 


t n (fy>; x) - {„ (0j ; x) < ln (K) 


On obtient : 
-n ln ( 0 O ) 


— ln (c) + 

0 o \ 0 o 


+ — ln (c) - 
01 


1 1 

% ~ ë[ 


H§ 

H§ 

\ « 

Yj ln (*>') < 
' 1=1 


ln (xi) + n ln ( G\ ) 
ln (jc,) < ln ( K ) 


où Kj = ln(ÆT) + M(ln(0o) — ln (G\ )) + n .ln(c ) 1 — est 
un terme constant. 


Puisque G\ < G^, on a : 


Y !" (x ù > 


avec Kt, = K^G^Gi/ (#i — Go). Cette inégalité peut se ré¬ 
écrire : 


ln 


1 \ i 

( C) - - V ln U,) < Kn 

n 4-^ 


avec Â 4 = ln (c) — K^/n. La région critique du test UPP de 
niveau a est de la forme : 

W = {;t :?(*)< à} 

où A est une constante déterminée par le niveau a. 

6 . D’après la définition du risque de première espèce : 

or = Pr(W| H 0 ) 

Donc : 

a = Pr f?< N |0o, 

ou de façon équivalente : 

G - G o asy 


& 


0-0„ A-0„ 

a = Pr -— < 


00/ V" 00/ V" 0o/ V» 


N (0,1) 


\ 00 / V" / 

où 0 (.) désigne la fonction de répartition de la loi normale 
centrée réduite. A partir de cette expression, on peut déduire 
la valeur critique du test UPP de niveau a : 

A = 0„ + y=<2>-‘ ( ff ) 

yn 

7. On considère le test d’hypothèse simple contre hypothèse 
simple : 

Ho : 0 = #o contre Hi : 6 = G\ 
avec 6\ < Go- La région critique du test UPP de niveau a 
est : 


W = \x : 6{x) < 6 >o + (a) 

yn 


Cette région critique ne dépend pas de la valeur de G \. Elle 
correspond donc à celle du test unilatéral : 

Ho : G = #o contre Hi : G < Gu 

8 . On considère les tests unilatéraux : 

Test A : Ho : G = Gu contre Hi : G < Go 
Test B : Ho : G = Gu contre Hi : G > Go 

Les régions de non rejet des tests unilatéraux UPP de niveau 
a/2 sont égales à : 

W A = |x: 0 U)> 0 o + -^<?- 1 (^) 
W B ={*:?W<ft + -^®- I (l-5)} 

Donc la région de non rejet du test bilatéral de niveau a est 
définie par : 

Puisque 0 1 (a/2) = -0 1 (1 - a/2), cette région peut se 
réécrire sous la forme : 

W = {,:jf W -«,)<A d r 1 (i_2) 

La région critique du test bilatéral de niveau a est donnée 
par : 


w = j*:j 0 W- 0 o j> 

9. Par définition de la fonction puissance : 

P(0) = Pr(W|Hi) V0 0u 
Sous l’hypothèse alternative : 

0 2 \ 


0 


H*?) 


avec G ± Go. La fonction puissance est égale à 
P(0) = l-Pr(wjHi) 

= 1 - Pr 


(■-!)) 


1 - Pr 0 < 0 O + 


+ Pr 0 < 0 U + 


!-'(!)) 


_ 0 O 

yfn 


1 - 0 




+ 0 


0 /VÏÏ 


G/ yfn 
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Statistique et probabilités 


On obtient 

P(fl) = 


'(il) 


6/ yfn 0 

Lorsque n tend vers l’infini, deux cas doivent être considé¬ 
rés. Si 0 > 6[), alors : 

limP (0) = 1 - 0 (-oo) + 0 (—oo) = 1 


Si 0 < #o, on a : 

limP(0) = 1 - 0(+oo) + 0(+oo) = 1 - 1 + 1 = 1 

71—» OO 

Quelle que soit la valeur de 6, la fonction puissance tend 
vers 1 : 

limP(0) = 1 


Le test est convergent. 
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Tables Statistiques Usuelles 


Table 1: Table de la loi binomiale 


p(x=k)=c k nP k (i- P y- k 

(k le nombre d’occurrences parmi n) 


n = 10 

p 



0.0 5 

0,1» 

0,15 

0,20 

0,2 5 

0,30 

0,35 

0,40 

0.4 5 

0,50 

0 

0,5987 

0,3487 

0,1969 

0.1074 

0,0563 

0.0282 

0,0135 

0,0060 

0,0025 

0,0010 

1 

0,9139 

0,7361 

0,5443 

0,3758 

0,2440 

0.1493 

0,0860 

0,0464 

0,0233 

0.0107 

2 

0,9885 

0,9298 

0,8202 

0,6778 

0,5256 

0.3828 

0,2616 

0,1673 

0,0996 

0.0547 

3 

0,9990 

0,9872 

0,9500 

0,8791 

0,7759 

0,6496 

0,5138 

0,3823 

0,2660 

0,1719 

4 

0,9999 

0.9984 

0,9901 

0,9672 

0,9219 

0.8497 

0,75 15 

0,6331 

0,5044 

0,3770 

5 

1,0000 

0,9999 

0,9986 

0,9936 

0,9803 

0,9527 

0,9051 

0,8338 

0,7384 

0,6230 

6 

1,0000 

1,0000 

0,9999 

0,9991 

0,9965 

0,9894 

0,9740 

0,9452 

0,8980 

0,8281 

7 

1,0000 

1,0000 

1,0000 

0,9999 

0,9996 

0.9984 

0,9952 

0,9877 

0,9726 

0,9453 

S 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

0,9999 

0,9995 

0,9983 

0,9955 

0.9893 

9 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

0,9999 

0,9997 

0,9990 

1 0 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 


n=20 

p 



0.0 5 

0,10 

0,15 

0,20 

0,2 5 

0,30 

0,3 5 

0,40 

0.4 5 

0,50 

0 

0,3585 

0,1216 

0,0388 

0,01 15 

0,0032 

0,0008 

0,0002 

0,0000 

0,0000 

0.0000 

1 

0,7358 

0,3917 

0,1756 

0,0692 

0,0243 

0,0076 

0,0021 

0,0005 

0,0001 

0,0000 

2 

0,9245 

0,6769 

0.4049 

0,2061 

0,0913 

0,0355 

0,0121 

0,00.36 

0,0009 

0.0002 

3 

0,9841 

0,8670 

0.6477 

0.41 14 

0,2252 

0.1071 

0,0444 

0,0160 

0,0049 

0.001.3 

4 

0,9974 

0,9568 

0,8298 

0,6296 

0.4148 

0.2375 

0,1 182 

0,0510 

0,0189 

0.0059 

5 

0,9997 

0,9887 

0,9327 

0,8042 

0,6172 

0.4164 

0,2454 

0,1256 

0,0553 

0,0207 

6 

1,0000 

0.9976 

0,9781 

0,9133 

0,7858 

0.6080 

0,4166 

0,2500 

0,1299 

0.0577 

7 

1,0000 

0,9996 

0,9941 

0,9679 

0,8982 

0.7723 

0,6010 

0,4159 

0,2520 

0,1.316 

8 

1,0000 

0,9999 

0,9987 

0,9900 

0,9591 

0.8867 

0,7624 

0,5956 

0,4143 

0.2517 

9 

1,0000 

1,0000 

0,9998 

0,9974 

0,9861 

0,9520 

0,8782 

0,7553 

0,5914 

0.4119 

1 0 

1,0000 

1,0000 

1.0000 

0,9994 

0,9961 

0,9829 

0,9468 

0,8725 

0,7507 

0.5881 

1 1 

1,0000 

1,0000 

1.0000 

0,9999 

0,9991 

0,9949 

0,9804 

0,9435 

0,8692 

0,7483 

1 2 

1,0000 

1.0000 

1.0000 

1,0000 

0,9998 

0,9987 

0,9940 

0,9790 

0,9420 

0.8684 

1 3 

1.0000 

1,0000 

1.0000 

1,0000 

1,0000 

0,9997 

0,9985 

0,9935 

0,9786 

0.9423 

1 4 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

1.0000 

0,9997 

0,9984 

0,9936 

0.9793 

1 5 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9997 

0,9985 

0.9941 

1 A 

1.0000 

1.0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9997 

0.9987 

1 7 

1.0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0.9998 

1 8 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1.0000 
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Table 2: Table de la loi binomiale (suite) 


P(X = k) = C k n p k {\-p) n - k 

(k le nombre d’occurrences parmi n) 


n = 25 


p 



0,05 

0.10 

0,15 

0,2 0 

0,2 5 

0,3 (1 

0,3 5 

0,40 

0,4 5 

U, 5 (1 

1) 

0,2774 

0,0718 

0,0172 

0,0038 

0,0008 

0,0001 

0,0000 

0,0000 

0,0000 

0,0000 

1 

0,6424 

0,2712 

0,0931 

0,0274 

0,0070 

0,0016 

0,0003 

0,0001 

0,0000 

0,0000 

2 

0,8729 

0,5371 

0,2537 

0,0982 

0,0321 

0,0090 

0.0021 

0,0004 

0,0001 

0,0000 

3 

0,9659 

0,7636 

0.4711 

0,2340 

0,0962 

0,0332 

0.0097 

0,0024 

0,0005 

0.0001 

4 

0,9928 

0,9020 

0.6821 

0,4207 

0,2137 

0,0905 

0,0320 

0,0095 

0,0023 

0.0005 

5 

0,9988 

0,9666 

0,8385 

0,6167 

0,3783 

0,1935 

0.0826 

0,0294 

0,0086 

0.0020 

6 

0,9998 

0,9905 

0,9305 

0,7800 

0,5611 

0,3407 

0,1734 

0,0736 

0,0258 

0.0073 

7 

1,0000 

0,9977 

0,9745 

0,8909 

0,7265 

0,5118 

0.3061 

0,1536 

0,0639 

0.0216 

K 

1,0000 

0,9995 

0,9920 

0,9532 

0,8506 

0,6769 

0.4668 

0,27.35 

0,1340 

0.0539 

9 

1,0000 

0,9999 

0.9979 

0,9827 

0,9287 

0,8106 

0,6303 

0.4246 

0.2424 

0.1148 

1 0 

1.0000 

1.0000 

0.9995 

0,9944 

0,9703 

0,9022 

0,7712 

0,5858 

0,3843 

0,2122 

1 1 

1.0000 

1.0000 

0.9999 

0,9985 

0,9893 

0,9558 

0,8746 

0,7323 

0,5426 

0.3450 

1 2 

1,0000 

1,0000 

1.0000 

0,9996 

0,9966 

0,9825 

0.9396 

0,8462 

0.6937 

0,5000 

1 3 

1,0000 

1.0000 

1.0000 

0,9999 

0,9991 

0,9940 

0,9745 

0,9222 

0.8173 

0,6550 

1 4 

1,0000 

1,0000 

1.0000 

1,0000 

0,9998 

0,9982 

0,9907 

0,9656 

0,9040 

0,7878 

I 5 

1.0000 

1,0000 

1.0000 

1,0000 

1,0000 

0,9995 

0,9971 

0,9868 

0,9560 

0.8852 

1 6 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

0,9999 

0,9992 

0,9957 

0.9826 

0,9461 

1 7 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9998 

0,9988 

0,9942 

0,9784 

1 S 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9997 

0,9984 

0,9927 

1 9 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9996 

0,9980 

2 (1 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

1,0000 

0,9999 

0,9995 

2 i 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

0.9999 

2 2 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 
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Table 3: Table de la loi binomiale (suite) 


P(X = k) = C k „p k (l -p)"- k 

(k le nombre d’occurrences parmi n) 


il = 50 

p 



0,05 

0,10 

0,15 

0,20 

0,2 5 

0,3 0 

0,35 

0,40 

0,45 

0,50 

0 

0.0769 

0.0052 

0,0003 

0.0000 

0.0000 

0,0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0,2794 

0,0338 

0,0029 

0,0002 

0,0000 

0,0000 

0,0000 

0,0000 

0,0000 

0,0000 

2 

0,5405 

O.l 1 17 

0,0142 

0,0013 

0,0001 

(I 1 MX H 

0,0000 

0,0000 

0,0000 

0,0000 

3 

0,7604 

0,2503 

0,0460 

0,0057 

0,0005 

0,0000 

0,0000 

0,0000 

0,0000 

0.0000 

4 

0,8964 

0,43 12 

0.1121 

0,0185 

0,0021 

0,0002 

0,0000 

0,0000 

0,0000 

0.0000 

5 

0,9622 

0,6161 

0,2194 

0,0480 

0,0070 

0.0007 

0,0001 

0,0000 

0,0000 

0,0000 

6 

0,9882 

0.7702 

0.3613 

0.1034 

0.0194 

0.0025 

0,0002 

0.0000 

0,0000 

0.0000 

7 

0,9968 

0.8779 

0,5188 

0,1904 

0,0453 

0,0073 

0,0008 

0.0001 

0,0000 

0,0000 

8 

0,9992 

0,9421 

0.6681 

0,3073 

0,0916 

0.0183 

0,0025 

0.0002 

0,0000 

0.0000 

9 

0,9998 

0,9755 

0,7911 

0,4437 

0,1637 

0.0402 

0,0067 

0,0008 

0,0001 

0,0000 

1 0 

1,0000 

0,9906 

0.8801 

0,5836 

0,2622 

0,0789 

0,0160 

0,0022 

0,0002 

0.0000 

1 1 

1,0000 

0,9968 

0,9372 

0,7107 

0,3816 

0,1390 

0,0342 

0,0057 

0,0006 

0,0000 

1 2 

1,0000 

0,9990 

0,9699 

0,81.39 

0,5110 

0,2229 

0,0661 

0,0133 

0,0018 

0,0002 

1 3 

1,0000 

0.9997 

0.9868 

0.8894 

0,6370 

0.3279 

0,1163 

0.0280 

0,0045 

0.0005 

1 4 

1,0000 

0.9999 

0,9947 

0,9393 

0,7481 

0.4468 

0,1878 

0.0540 

0,0104 

0.0013 

1 5 

1,0000 

1,0000 

0,9981 

0,9692 

0,8369 

0.5692 

0,2801 

0,0955 

0,0220 

0.0033 

1 6 

1,0000 

1,0000 

0.9993 

0,9856 

0,9017 

0.6839 

0,3889 

0,1561 

0,0427 

0.0077 

1 7 

1,0000 

1,0000 

0,9998 

0,9937 

0,9449 

0.7822 

0,5060 

0,2369 

0,0765 

0.0164 

1 8 

1,0000 

1,0000 

0,9999 

0,9975 

0,9713 

0.8594 

0,6216 

0,3.356 

0.1273 

0,0325 

1 9 

1,0000 

1,0000 

1.0000 

0.9991 

0,9861 

0.9152 

0,7264 

0.4465 

0,1974 

0,0595 

2 « 

1,0000 

1.0000 

1,0000 

0,9997 

0,9937 

0,9522 

0.8139 

0.5610 

0.2862 

0.1013 

2 1 

1,0000 

1.0000 

1.0000 

0,9999 

0,9974 

0.9749 

0,881.3 

0,6701 

0,3900 

0.1611 

2 2 

1,0000 

1,0000 

1.0000 

1,0000 

0,9990 

0.9877 

0,9290 

0,7660 

0,5019 

0.2399 

2 3 

1,0000 

1,0000 

1,0000 

1,0000 

0,9996 

0,9944 

0,9604 

0,8438 

0.6134 

0,3359 

24 

1,0000 

1,0000 

1.0000 

1,0000 

0,9999 

0,9976 

0,9793 

0,9022 

0,7160 

0,4439 

2 5 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0.9991 

0,9900 

0.9427 

0,8034 

0,5561 

2 6 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0,9997 

0,9955 

0.9686 

0.8721 

0.6641 

27 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

0.9999 

0,9981 

0.9840 

0,9220 

0.7601 

2 8 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1.0000 

0,9993 

0,9924 

0,9556 

0.8389 

2 9 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0,9997 

0,9966 

0,9765 

0,8987 

3 0 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1.0000 

0,9999 

0,9986 

0,9884 

0,9405 

3 1 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9995 

0,9947 

0,9675 

3 2 

1.0000 

1,0000 

1.0000 

1,0000 

1 ,0000 

1,0000 

1,0000 

0,9998 

0,9978 

0.9836 

3 3 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1.0000 

1,0000 

0,9999 

0.9991 

0.9923 

3 4 

1,0000 

1,0000 

1.0000 

1,0000 

i.OOOO 

1.0000 

1,0000 

1,0000 

0,9997 

0.9967 

3 5 

1,0000 

1,0000 

1.0000 

1,0000 

1 ,0000 

1.0000 

1,0000 

1,0000 

0,9999 

0,9987 

3 6 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0,9995 

3 7 

1,0000 

1,0000 

1,0000 

1.0000 

1 ,0000 

1.0000 

1.0000 

1,0000 

1,0000 

0,9998 

3 8 

1,0000 

1,0000 

1,0000 

1,0000 

1 ,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 
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Table 4: Table de la loi de Poisson 


k 

P(X = k) = e~ h A 
k\ 

((j le nombre d’occurrences moyen) 


1 * 



0,1 

0,2 

0,3 

0,4 

0,5 

0,6 

0,7 

0,8 

0,9 

1 , o 

0 

0.9048 

0,8187 

0,7408 

0.6703 

0.6065 

0.5488 

0,4966 

0.4493 

0.4066 

0,3679 

1 

0,9953 

0,9825 

0,963 1 

0,9384 

0,9098 

0.8781 

0.8442 

0,8088 

0,7725 

0,7358 

2 

0,9998 

0,9989 

0,9964 

0,9921 

0,9856 

0.9769 

0.9659 

0,9526 

0,9371 

0,9197 

3 

1,0000 

0,9999 

0,9997 

0,9992 

0,9982 

0,9966 

0.9942 

0,9909 

0,9865 

0,9810 

4 

1.0000 

1,0000 

1,0000 

0.9999 

0.9998 

0.9996 

0.9992 

0.9986 

0.9977 

0.9963 

5 

1.0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9998 

0,9997 

0,9994 

6 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0,9999 

7 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 


1 * 



1,5 

2 

3 

4 

5 

6 

7 

8 

9 

1 0 

0 

0,2231 

0,1353 

0,0498 

0,0183 

0.0067 

0.0025 

0.0009 

0,0003 

0,0001 

0,0000 

1 

0,5578 

0,4060 

0,1991 

0,0916 

0,0404 

0,0174 

0,0073 

0,0030 

0,0012 

0,0005 

2 

0,8088 

0,6767 

0,4232 

0,2381 

0,1247 

0.0620 

0,0296 

0.0138 

0,0062 

0,0028 

3 

0,9344 

0,8571 

0,6472 

0,4335 

0,2650 

0.1512 

0.0818 

0,0424 

0,0212 

0,0103 

4 

0,9814 

0,9473 

0,8153 

0.6288 

0,4405 

0,2851 

0,1730 

0,0996 

0,0550 

0,0293 

5 

0,9955 

0,9834 

0,9161 

0,785 1 

0,6160 

0,4457 

0,3007 

0,1912 

0.1 157 

0,0671 

6 

0,9991 

0,9955 

0.9665 

0,8893 

0,7622 

0,6063 

0.4497 

0,3134 

0.2068 

0,1301 

7 

0,9998 

0,9989 

0,9881 

0,9489 

0,8666 

0,7440 

0,5987 

0,4530 

0,3239 

0,2202 

8 

1,0000 

0,9998 

0,9962 

0,9786 

0,9319 

0,8472 

0.7291 

0,5925 

0,4557 

0,3328 

9 

1,0000 

1,0000 

0,9989 

0,9919 

0,9682 

0.9161 

0,8305 

0,7166 

0.5874 

0,4579 

1 0 

1,0000 

1,0000 

0,9997 

0,9972 

0,9863 

0,9574 

0,9015 

0,8159 

0.7060 

0,5830 

1 1 

1.0000 

1,0000 

0,9999 

0,9991 

0,9945 

0.9799 

0,9467 

0,8881 

0.8030 

0.6968 

1 2 

1.0000 

1,0000 

1,0000 

0,9997 

0,9980 

0,9912 

0,9730 

0,9362 

0.8758 

0,7916 

1 3 

1,0000 

1,0000 

1,0000 

0,9999 

0,9993 

0,9964 

0,9872 

0,9658 

0,9261 

0,8645 

1 4 

1,0000 

1,0000 

1,0000 

1,0000 

0,9998 

0,9986 

0,9943 

0,9827 

0,9585 

0,9165 

1 5 

1.0000 

1,0000 

1,0000 

1.0000 

0.9999 

0.9995 

0,9976 

0.9918 

0,9780 

0,95 13 

1 6 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

0.9998 

0,9990 

0,9963 

0,9889 

0,9730 

1 7 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9996 

0,9984 

0,9947 

0,9857 

1 8 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9993 

0,9976 

0,9928 

1 9 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9997 

0,9989 

0,9965 

2 0 

1,0000 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9996 

0,9984 

2 i 

1,0000 

1.0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9998 

0,9993 

2 2 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

0,9999 

0,9997 

2 3 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1,0000 

1.0000 

0,9999 

24 

1,0000 

1,0000 

1.0000 

1.0000 

1,0000 

1,0000 

1.0000 

1.0000 

1.0000 

1.0000 
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Table 5: Table de la loi normale centrée réduite 


Probabilité qu'une variable aléatoire continue suivant une loi normale standard (ou centrée réduite) soit inférieure au seuil z. 



La table ci-dessous présente les valeurs pour z positif. Pour - négatif la valeur est N(z) = l-N(-z) 


Z 

0,00 

0,01 

0,02 

0,03 

0,04 

0,05 

0,06 

0,07 

0,08 

0,09 

0,0 

0,500000 

0,503989 

0,507978 

0,511966 

0,515953 

0,519939 

0,523922 

0,527903 

0,531881 

0,535856 

0,1 

0,539828 

0,543795 

0,547758 

0,551717 

0,555670 

0,559618 

0,563559 

0,567495 

0,571424 

0,575345 

0,2 

0,579260 

0,583166 

0,587064 

0,590954 

0,594835 

0,598706 

0,602568 

0,606420 

0,610261 

0,614092 

0,3 

0,617911 

0,621720 

0,625516 

0,629300 

0,633072 

0,636831 

0,640576 

0,644309 

0,648027 

0,651732 

0,4 

0,655422 

0,659097 

0,662757 

0,666402 

0,670031 

0,673645 

0,677242 

0,680822 

0,684386 

0,687933 

0,5 

0,691462 

0,694974 

0,698468 

0,701944 

0,705401 

0,708840 

0,712260 

0,715661 

0,719043 

0,722405 

0,6 

0,725747 

0,729069 

0,732371 

0,735653 

0,738914 

0,742154 

0,745373 

0,748571 

0,751748 

0,754903 

0,7 

0,758036 

0,761148 

0,764238 

0,767305 

0,770350 

0,773373 

0,776373 

0,779350 

0,782305 

0,785236 

0,8 

0,788145 

0,791030 

0,793892 

0,796731 

0,799546 

0,802337 

0,805105 

0,807850 

0,810570 

0,813267 

0,9 

0,815940 

0,818589 

0,821214 

0,823814 

0,826391 

0,828944 

0,831472 

0,833977 

0,836457 

0,838913 

1,0 

0,841345 

0,843752 

0,846136 

0,848495 

0,850830 

0,853141 

0,855428 

0,857690 

0,859929 

0,862143 

1,1 

0,864334 

0,866500 

0,868643 

0,870762 

0,872857 

0,874928 

0,876976 

0,879000 

0,881000 

0,882977 

1,2 

0,884930 

0,886861 

0,888768 

0,890651 

0,892512 

0,894350 

0,896165 

0,897958 

0,899727 

0,901475 

1,3 

0,903200 

0,904902 

0,906582 

0,908241 

0,909877 

0,911492 

0,913085 

0,914657 

0,916207 

0,917736 

1,4 

0,919243 

0,920730 

0,922196 

0,923641 

0,925066 

0,926471 

0,927855 

0,929219 

0,930563 

0,931888 

1,5 

0,933193 

0,934478 

0,935745 

0,936992 

0,938220 

0,939429 

0,940620 

0,941792 

0,942947 

0,944083 

1,6 

0,945201 

0,946301 

0,947384 

0,948449 

0,949497 

0,950529 

0,951543 

0,952540 

0,953521 

0,954486 

1,7 

0,955435 

0,956367 

0,957284 

0,958185 

0,959070 

0,959941 

0,960796 

0,961636 

0,962462 

0,963273 

1,8 

0,964070 

0,964852 

0,965620 

0,966375 

0,967116 

0,967843 

0,968557 

0,969258 

0,969946 

0,970621 

1,9 

0,971283 

0,971933 

0,972571 

0,973197 

0,973810 

0,974412 

0,975002 

0,975581 

0,976148 

0,976705 

2,0 

0,977250 

0,977784 

0,978308 

0,978822 

0,979325 

0,979818 

0,980301 

0,980774 

0,981237 

0,981691 

2,1 

0,982136 

0,982571 

0,982997 

0,983414 

0,983823 

0,984222 

0,984614 

0,984997 

0,985371 

0,985738 

2,2 

0,986097 

0,986447 

0,986791 

0,987126 

0,987455 

0,987776 

0,988089 

0,988396 

0,988696 

0,988989 

2,3 

0,989276 

0,989556 

0,989830 

0,990097 

0,990358 

0,990613 

0,990863 

0,991106 

0,991344 

0,991576 

2,4 

0,991802 

0,992024 

0,992240 

0,992451 

0,992656 

0,992857 

0,993053 

0,993244 

0,993431 

0,993613 

2,5 

0,993790 

0,993963 

0,994132 

0,994297 

0,994457 

0,994614 

0,994766 

0,994915 

0,995060 

0,995201 

2,6 

0,995339 

0,995473 

0,995604 

0,995731 

0,995855 

0,995975 

0,996093 

0,996207 

0,996319 

0,996427 

2,7 

0,996533 

0,996636 

0,996736 

0,996833 

0,996928 

0,997020 

0,997110 

0,997197 

0,997282 

0,997365 

2,8 

0,997445 

0,997523 

0,997599 

0,997673 

0,997744 

0,997814 

0,997882 

0,997948 

0,998012 

0,998074 

2,9 

0,998134 

0,998193 

0,998250 

0,998305 

0,998359 

0,998411 

0,998462 

0,998511 

0,998559 

0,998605 


Pour les valeurs de z supérieures à 3 : 


Z 

3,0 

3,1 

3,2 

3,3 

3,4 

3,5 

3,6 

3,8 

4,0 

4,5 

N(z) 

| 0,998650 

0,999032 

0,999313 

0,999517 

0,999663 

0,999767 

0,999841 

0,999928 

0,999968 

0,999997 
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Table 6: Table de la loi normale : quantités 


Pour une valeur a e]0; 0.5[, la table ci-dessous renvoie la valeur F 1 (a) de la fonction quantile F 1 de la loi 
normale centrée réduite au point a. 



a 

0.000 

0.001 

Û.0Û2 

Û.0Û3 

0.OÛ4 

0.OÛ5 

Û.0Û6 

0.007 

Û.008 

Û.O09 

0.00 

00 

3.0902 

2.8782 

2.7478 

2.6521 

2.5758 

2.5121 

2.4573 

2.4089 

2.3656 

0.01 

2.3263 

2.2904 

2.2571 

2.2262 

2.1973 

2.1701 

2.1444 

2.1201 

2.0969 

2.0749 

0.02 

2.0537 

2.0335 

2.0141 

1.9954 

1.9774 

1.9600 

1.9431 

1.9268 

1.9110 

1.8957 

0.03 

1.8808 

1.8663 

1.8522 

1.8384 

1.8250 

1.8119 

1.7991 

1.7866 

1.7744 

1.7624 

0.04 

1.7507 

1.7392 

1.7279 

1.7169 

1.7060 

1.6954 

1.6849 

1.6747 

1.6646 

1.6546 

0.05 

1.6449 

1.6352 

1.6258 

1.6164 

1.6072 

1.5982 

1.5893 

1.5805 

1.5718 

1.5632 

0.06 

1.5548 

1.5464 

1.5382 

1.5301 

1.5220 

1.5141 

1.5063 

1.4985 

1.4909 

1.4833 

0.07 

1.4758 

1.4684 

1.4611 

1.4538 

1.4466 

1.4395 

1.4325 

1.4255 

1.4187 

1.4118 

0.08 

1.4051 

1.3984 

1.3917 

1.3852 

1.3787 

1.3722 

1.3658 

1.3595 

1.3532 

1.3469 

0.09 

1.3408 

1.3346 

1.3285 

1.3225 

1.3165 

1.3106 

1.3047 

1.2988 

1.2930 

1.2873 

0.10 

1.2816 

1.2759 

1.2702 

1.2646 

1.2591 

1.2536 

1.2481 

1.2426 

1.2372 

1.2319 

0.11 

1.2265 

1.2212 

1.2160 

1.2107 

1.2055 

1.2004 

1.1952 

1.1901 

1.1850 

1.1800 

0.12 

1.1750 

1.1700 

1.1650 

1.1601 

1.1552 

1.1503 

1.1455 

1.1407 

1.1359 

1.1311 

0.13 

1.1264 

1.1217 

1.1170 

1.1123 

1.1077 

1.1031 

1.0985 

1.0939 

1.0893 

1.0848 

0.14 

1.0803 

1.0758 

1.0714 

1.0669 

1.0625 

1.0581 

1.0537 

1.0494 

1.0450 

1.0407 

0.15 

1.0364 

1.0322 

1.0279 

1.0237 

1.0194 

1.0152 

1.0110 

1.0069 

1.0027 

0.9986 

0.16 

0.9945 

0.9904 

0.9863 

0.9822 

0.9782 

0.9741 

0.9701 

0.9661 

0.9621 

0.9581 

0.17 

0.9542 

0.9502 

0.9463 

0.9424 

0.9385 

0.9346 

0.9307 

0.9269 

0.9230 

0.9192 

0.18 

0.9154 

0.9116 

0.9078 

0.9040 

0.9002 

0.8965 

0.8927 

0.8890 

0.8853 

0.8816 

0.19 

0.8779 

0.8742 

0.8705 

0.8669 

0.8633 

0.8596 

0.8560 

0.8524 

0.8488 

0.8452 

0.20 

0.8416 

0.8381 

0.8345 

0.8310 

0.8274 

0.8239 

0.8204 

0.8169 

0.8134 

0.8099 

0.21 

0.8064 

0.8030 

0.7995 

0.7961 

0.7926 

0.7892 

0.7858 

0.7824 

0.7790 

0.7756 

0.22 

0.7722 

0.7688 

0.7655 

0.7621 

0.7588 

0.7554 

0.7521 

0.7488 

0.7454 

0.7421 

0.23 

0.7388 

0.7356 

0.7323 

0.7290 

0.7257 

0.7225 

0.7192 

0.7160 

0.7128 

0.7095 

0.24 

0.7063 

0.7031 

0.6999 

0.6967 

0.6935 

0.6903 

0.6871 

0.6840 

0.6808 

0.6776 

0.25 

0.6745 

0.6713 

0.6682 

0.6651 

0.6620 

0.6588 

0.6557 

0.6526 

0.6495 

0.6464 

0.26 

0.6433 

0.6403 

0.6372 

0.6341 

0.6311 

0.6280 

0.6250 

0.6219 

0.6189 

0.6158 

0.27 

0.6128 

0.6098 

0.6068 

0.6038 

0.6008 

0.5978 

0.5948 

0.5918 

0.5888 

0.5858 

0.28 

0.5828 

0.5799 

0.5769 

0.5740 

0.5710 

0.5681 

0.5651 

0.5622 

0.5592 

0.5563 

0.29 

0.5534 

0.5505 

0.5476 

0.5446 

0.5417 

0.5388 

0.5359 

0.5330 

0.5302 

0.5273 

0.30 

0.5244 

0.5215 

0.5187 

0.5158 

0.5129 

0.5101 

0.5072 

0.5044 

0.5015 

0.4987 

0.31 

0.4959 

0.4930 

0.4902 

0.4874 

0.4845 

0.4817 

0.4789 

0.4761 

0.4733 

0.4705 

0.32 

0.4677 

0.4649 

0.4621 

0.4593 

0.4565 

0.4538 

0.4510 

0.4482 

0.4454 

0.4427 

0.33 

0.4399 

0.4372 

0.4344 

0.4316 

0.4289 

0.4261 

0.4234 

0.4207 

0.4179 

0.4152 

0.34 

0.4125 

0.4097 

0.4070 

0.4043 

0.4016 

0.3989 

0.3961 

0.3934 

0.3907 

0.3880 

0.35 

0.3853 

0.3826 

0.3799 

0.3772 

0.3745 

0.3719 

0.3692 

0.3665 

0.3638 

0.3611 

0.36 

0.3585 

0.3558 

0.3531 

0.3505 

0.3478 

0.3451 

0.3425 

0.3398 

0.3372 

0.3345 

0.37 

0.3319 

0.3292 

0.3266 

0.3239 

0.3213 

0.3186 

0.3160 

0.3134 

0.3107 

0.3081 

0.38 

0.3055 

0.3029 

0.3002 

0.2976 

0.2950 

0.2924 

0.2898 

0.2871 

0.2845 

0.2819 

0.39 

0.2793 

0.2767 

0.2741 

0.2715 

0.2689 

0.2663 

0.2637 

0.2611 

0.2585 

0.2559 

0.40 

0.2533 

0.2508 

0.2482 

0.2456 

0.2430 

0.2404 

0.2378 

0.2353 

0.2327 

0.2301 

0.41 

0.2275 

0.2250 

0.2224 

0.2198 

0.2173 

0.2147 

0.2121 

0.2096 

0.2070 

0.2045 

0.42 

0.2019 

0.1993 

0.1968 

0.1942 

0.1917 

0.1891 

0.1866 

0.1840 

0.1815 

0.1789 

0.43 

0.1764 

0.1738 

0.1713 

0.1687 

0.1662 

0.1637 

0.1611 

0.1586 

0.1560 

0.1535 

0.44 

0.1510 

0.1484 

0.1459 

0.1434 

0.1408 

0.1383 

0.1358 

0.1332 

0.1307 

0.1282 

0.45 

0.1257 

0.1231 

0.1206 

0.1181 

0.1156 

0.1130 

0.1105 

0.1080 

0.1055 

0.1030 

0.46 

0.1004 

0.0979 

0.0954 

0.0929 

0.0904 

0.0878 

0.0853 

0.0828 

0.0803 

0.0778 

0.47 

0.0753 

0.0728 

0.0702 

0.0677 

0.0652 

0.0627 

0.0602 

0.0577 

0.0552 

0.0527 

0.48 

0.0502 

0.0476 

0.0451 

0.0426 

0.0401 

0.0376 

0.0351 

0.0326 

0.0301 

0.0276 

0.49 

0.0251 

0.0226 

0.0201 

0.0175 

0.0150 

0.0125 

0.0100 

0.0075 

0.0050 

0.0025 
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Table 7: Table de la loi du x 2 

Valeurs de c ayant la probabilité P d'être dépassées en valeur absolue. 



r 

P= 0,990 

P= 0,975 

P= 0,950 

P= 0,900 

P= 0,800 

P= 0,700 

P= 0,500 

P= 0,300 

P= 0,200 

P= 0,100 

P= 0,010 

P= 0,005 

P= 0,001 

1 

0,000 

0,001 

0,004 

0,016 

0,064 

0,148 

0,455 

1,074 

1,642 

2,706 

6,635 

7,879 

10,828 

2 

0,020 

0,051 

0,103 

0,211 

0,446 

0,713 

1,386 

2,408 

3,219 

4,605 

9,210 

10,597 

13,816 

3 

0,115 

0,216 

0,352 

0,584 

1,005 

1,424 

2,366 

3,665 

4,642 

6,251 

11,345 

12,838 

16,266 

4 

0,297 

0,484 

0,711 

1,064 

1,649 

2,195 

3,357 

4,878 

5,989 

7,779 

13,277 

14,860 

18,467 

5 

0,554 

0,831 

1,145 

1,610 

2,343 

3,000 

4,351 

6,064 

7,289 

9,236 

15,086 

16,750 

20,515 

6 

0,872 

1,237 

1,635 

2,204 

3,070 

3,828 

5,348 

7,231 

8,558 

10,645 

16,812 

18,548 

22,458 

7 

1,239 

1,690 

2,167 

2,833 

3,822 

4,671 

6,346 

8,383 

9,803 

12,017 

18,475 

20,278 

24,322 

8 

1,646 

2,180 

2,733 

3,490 

4,594 

5,527 

7,344 

9,524 

11,030 

13,362 

20,090 

21,955 

26,124 

9 

2,088 

2,700 

3,325 

4,168 

5,380 

6,393 

8,343 

10,656 

12,242 

14,684 

21,666 

23,589 

27,877 

10 

2,558 

3,247 

3,940 

4,865 

6,179 

7,267 

9,342 

11,781 

13,442 

15,987 

23,209 

25,188 

29,588 

11 

3,053 

3,816 

4,575 

5,578 

6,989 

8,148 

10,341 

12,899 

14,631 

17,275 

24,725 

26,757 

31,264 

12 

3,571 

4,404 

5,226 

6,304 

7,807 

9,034 

11,340 

14,011 

15,812 

18,549 

26,217 

28,300 

32,909 

13 

4,107 

5,009 

5,892 

7,042 

8,634 

9,926 

12,340 

15,119 

16,985 

19,812 

27,688 

29,819 

34,528 

14 

4,660 

5,629 

6,571 

7,790 

9,467 

10,821 

13,339 

16,222 

18,151 

21,064 

29,141 

31,319 

36,123 

15 

5,229 

6,262 

7,261 

8,547 

10,307 

11,721 

14,339 

17,322 

19,311 

22,307 

30,578 

32,801 

37,697 

16 

5,812 

6,908 

7,962 

9,312 

11,152 

12,624 

15,338 

18,418 

20,465 

23,542 

32,000 

34,267 

39,252 

17 

6,408 

7,564 

8,672 

10,085 

12,002 

13,531 

16,338 

19,511 

21,615 

24,769 

33,409 

35,718 

40,790 

18 

7,015 

8,231 

9,390 

10,865 

12,857 

14,440 

17,338 

20,601 

22,760 

25,989 

34,805 

37,156 

42,312 

19 

7,633 

8,907 

10,117 

11,651 

13,716 

15,352 

18,338 

21,689 

23,900 

27,204 

36,191 

38,582 

43,820 

20 

8,260 

9,591 

10,851 

12,443 

14,578 

16,266 

19,337 

22,775 

25,038 

28,412 

37,566 

39,997 

45,315 

21 

8,897 

10,283 

11,591 

13,240 

15,445 

17,182 

20,337 

23,858 

26,171 

29,615 

38,932 

41,401 

46,797 

22 

9,542 

10,982 

12,338 

14,041 

16,314 

18,101 

21,337 

24,939 

27,301 

30,813 

40,289 

42,796 

48,268 

23 

10,196 

11,689 

13,091 

14,848 

17,187 

19,021 

22,337 

26,018 

28,429 

32,007 

41,638 

44,181 

49,728 

24 

10,856 

12,401 

13,848 

15,659 

18,062 

19,943 

23,337 

27,096 

29,553 

33,196 

42,980 

45,559 

51,179 

25 

11,524 

13,120 

14,611 

16,473 

18,940 

20,867 

24,337 

28,172 

30,675 

34,382 

44,314 

46,928 

52,620 

26 

12,198 

13,844 

15,379 

17,292 

19,820 

21,792 

25,336 

29,246 

31,795 

35,563 

45,642 

48,290 

54,052 

27 

12,879 

14,573 

16,151 

18,114 

20,703 

22,719 

26,336 

30,319 

32,912 

36,741 

46,963 

49,645 

55,476 

28 

13,565 

15,308 

16,928 

18,939 

21,588 

23,647 

27,336 

31,391 

34,027 

37,916 

48,278 

50,993 

56,892 

29 

14,256 

16,047 

17,708 

19,768 

22,475 

24,577 

28,336 

32,461 

35,139 

39,087 

49,588 

52,336 

58,301 

30 

14,953 

16,791 

18,493 

20,599 

23,364 

25,508 

29,336 

33,530 

36,250 

40,256 

50,892 

53,672 

59,703 

40 

22,164 

24,433 

26,509 

29,051 

32,345 

34,872 

39,335 

44,165 

47,269 

51,805 

63,691 

66,766 

73,402 

80 

53,540 

57,153 

60,391 

64,278 

69,207 

72,915 

79,334 

86,120 

90,405 

96,578 

112,329 

116,321 

124,839 

120 

86,923 

91,573 

95,705 

100,624 

106,806 

111,419 

119,334 

127,616 

132,806 

140,233 

158,950 

163,648 

173,617 
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Table 8: Table de la loi de Student 

Valeurs de r ayant la probabilité P d'être dépassées en valeur absolue. 



r 

P= 0,90 

P= 0,80 

P= 0,70 

P= 0,60 

P= 0,50 

P= 0,40 

P= 0,30 

P= 0,20 

P= 0,10 

P= 0,05 

P= 0,01 

P= 0,005 

i 

0,158 

0,325 

0,510 

0,727 

1,000 

1,376 

1,963 

3,078 

6,314 

12,706 

63,657 

127,321 

2 

0,142 

0,289 

0,445 

0,617 

0,816 

1,061 

1,386 

1,886 

2,920 

4,303 

9,925 

14,089 

3 

0,137 

0,277 

0,424 

0,584 

0,765 

0,978 

1,250 

1,638 

2,353 

3,182 

5,841 

7,453 

4 

0,134 

0,271 

0,414 

0,569 

0,741 

0,941 

1,190 

1,533 

2,132 

2,776 

4,604 

5,598 

5 

0,132 

0,267 

0,408 

0,559 

0,727 

0,920 

1,156 

1,476 

2,015 

2,571 

4,032 

4,773 

6 

0,131 

0,265 

0,404 

0,553 

0,718 

0,906 

1,134 

1,440 

1,943 

2,447 

3,707 

4,317 

7 

0,130 

0,263 

0,402 

0,549 

0,711 

0,896 

1,119 

1,415 

1,895 

2,365 

3,499 

4,029 

8 

0,130 

0,262 

0,399 

0,546 

0,706 

0,889 

1,108 

1,397 

1,860 

2,306 

3,355 

3,833 

9 

0,129 

0,261 

0,398 

0,543 

0,703 

0,883 

1,100 

1,383 

1,833 

2,262 

3,250 

3,690 

10 

0,129 

0,260 

0,397 

0,542 

0,700 

0,879 

1,093 

1,372 

1,812 

2,228 

3,169 

3,581 

11 

0,129 

0,260 

0,396 

0,540 

0,697 

0,876 

1,088 

1,363 

1,796 

2,201 

3,106 

3,497 

12 

0,128 

0,259 

0,395 

0,539 

0,695 

0,873 

1,083 

1,356 

1,782 

2,179 

3,055 

3,428 

13 

0,128 

0,259 

0,394 

0,538 

0,694 

0,870 

1,079 

1,350 

1,771 

2,160 

3,012 

3,372 

14 

0,128 

0,258 

0,393 

0,537 

0,692 

0,868 

1,076 

1,345 

1,761 

2,145 

2,977 

3,326 

15 

0,128 

0,258 

0,393 

0,536 

0,691 

0,866 

1,074 

1,341 

1,753 

2,131 

2,947 

3,286 

16 

0,128 

0,258 

0,392 

0,535 

0,690 

0,865 

1,071 

1,337 

1,746 

2,120 

2,921 

3,252 

17 

0,128 

0,257 

0,392 

0,534 

0,689 

0,863 

1,069 

1,333 

1,740 

2,110 

2,898 

3,222 

18 

0,127 

0,257 

0,392 

0,534 

0,688 

0,862 

1,067 

1,330 

1,734 

2,101 

2,878 

3,197 

19 

0,127 

0,257 

0,391 

0,533 

0,688 

0,861 

1,066 

1,328 

1,729 

2,093 

2,861 

3,174 

20 

0,127 

0,257 

0,391 

0,533 

0,687 

0,860 

1,064 

1,325 

1,725 

2,086 

2,845 

3,153 

21 

0,127 

0,257 

0,391 

0,532 

0,686 

0,859 

1,063 

1,323 

1,721 

2,080 

2,831 

3,135 

22 

0,127 

0,256 

0,390 

0,532 

0,686 

0,858 

1,061 

1,321 

1,717 

2,074 

2,819 

3,119 

23 

0,127 

0,256 

0,390 

0,532 

0,685 

0,858 

1,060 

1,319 

1,714 

2,069 

2,807 

3,104 

24 

0,127 

0,256 

0,390 

0,531 

0,685 

0,857 

1,059 

1,318 

1,711 

2,064 

2,797 

3,091 

25 

0,127 

0,256 

0,390 

0,531 

0,684 

0,856 

1,058 

1,316 

1,708 

2,060 

2,787 

3,078 

26 

0,127 

0,256 

0,390 

0,531 

0,684 

0,856 

1,058 

1,315 

1,706 

2,056 

2,779 

3,067 

27 

0,127 

0,256 

0,389 

0,531 

0,684 

0,855 

1,057 

1,314 

1,703 

2,052 

2,771 

3,057 

28 

0,127 

0,256 

0,389 

0,530 

0,683 

0,855 

1,056 

1,313 

1,701 

2,048 

2,763 

3,047 

29 

0,127 

0,256 

0,389 

0,530 

0,683 

0,854 

1,055 

1,311 

1,699 

2,045 

2,756 

3,038 

30 

0,127 

0,256 

0,389 

0,530 

0,683 

0,854 

1,055 

1,310 

1,697 

2,042 

2,750 

3,030 

40 

0,126 

0,255 

0,388 

0,529 

0,681 

0,851 

1,050 

1,303 

1,684 

2,021 

2,704 

2,971 

80 

0,126 

0,254 

0,387 

0,526 

0,678 

0,846 

1,043 

1,292 

1,664 

1,990 

2,639 

2,887 

120 

0,126 

0,254 

0,386 

0,526 

0,677 

0,845 

1,041 

1,289 

1,658 

1,980 

2,617 

2,860 

oo 

0,126 

0,253 

0,385 

0,524 

0,675 

0,842 

1,036 

1,282 

1,645 

1,960 

2,576 

2,808 
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Table 9: Table de la loi de Fisher-Snedecor 


Valeurs de F ayant la probabilité P d'être dépassées en valeur absolue. 




V, 

= 1 

V, 

=2 

V, : 

= 3 

V, 

= 4 

V, 

= 5 

V, 

= 6 




P= 0,05 





ng^^zmi 


P= 0,01 


P= 0,01 

U 

161,448 

4052,181 

199,500 

4999,500 

215,707 

5403,352 

224,583 

5624,583 

230,162 

5763,650 

233,986 

5858,986 

RS 

18,513 

98,503 

19,000 

99,000 

19,164 

99,166 

19,247 

99,249 

19,296 

99,299 

19,330 

99,333 

n 

10,128 

34,116 

9,552 

30,817 

9,277 

29,457 

9,117 

28,710 

9,013 

28,237 

8,941 

27,911 

il 

7,709 

21,198 

6,944 

18,000 

6,591 

16,694 

6,388 

15,977 

6,256 

15,522 

6,163 

15,207 

5 

6,608 

16,258 

5,786 

13,274 

5,409 

12,060 

5,192 

11,392 

5,050 

10,967 

4,950 

10,672 

6 

5,987 

13,745 

5,143 

10,925 

4,757 

9,780 

4,534 

9,148 

4,387 

8,746 

4,284 

8,466 


5,591 

12,246 

4,737 

9,547 

4,347 

8,451 

4,120 

7,847 

3,972 

7,460 

3,866 

7,191 


5,318 

11,259 

4,459 

8,649 

4,066 

7,591 

3,838 

7,006 

3,687 

6,632 

3,581 

6,371 


5,117 

10,561 

4,256 

8,022 

3,863 

6,992 

3,633 

6,422 

3,482 

6,057 

3,374 

5,802 

10 

4,965 

10,044 

4,103 

7,559 

3,708 

6,552 

3,478 

5,994 

3,326 

5,636 

3,217 

5,386 

11 

4,844 

9,646 

3,982 

7,206 

3,587 

6,217 

3,357 

5,668 

3,204 

5,316 

3,095 

5,069 

12 

4,747 

9,330 

3,885 

6,927 

3,490 

5,953 

3,259 

5,412 

3,106 

5,064 

2,996 

4,821 

13 

4,667 

9,074 

3,806 

6,701 

3,411 

5,739 

3,179 

5,205 

3,025 

4,862 

2,915 

4,620 

14 

4,600 

8,862 

3,739 

6,515 

3,344 

5,564 

3,112 

5,035 

2,958 

4,695 

2,848 

4,456 

15 

4,543 

8,683 

3,682 

6,359 

3,287 

5,417 

3,056 

4,893 

2,901 

4,556 

2,790 

4,318 

16 

4,494 

8,531 

3,634 

6,226 

3,239 

5,292 

3,007 

4,773 

2,852 

4,437 

2,741 

4,202 

17 

4,451 

8,400 

3,592 

6,112 

3,197 

5,185 

2,965 

4,669 

2,810 

4,336 

2,699 

4,102 

18 

4,414 

8,285 

3,555 

6,013 

3,160 

5,092 

2,928 

4,579 

2,773 

4,248 

2,661 

4,015 

19 

4,381 

8,185 

3,522 

5,926 

3,127 

5,010 

2,895 

4,500 

2,740 

4,171 

2,628 

3,939 

20 

4,351 

8,096 

3,493 

5,849 

3,098 

4,938 

2,866 

4,431 

2,711 

4,103 

2,599 

3,871 

21 

4,325 

8,017 

3,467 

5,780 

3,072 

4,874 

2,840 

4,369 

2,685 

4,042 

2,573 

3,812 

22 

4,301 

7,945 

3,443 

5,719 

3,049 

4,817 

2,817 

4,313 

2,661 

3,988 

2,549 

3,758 

23 

4,279 

7,881 

3,422 

5,664 

3,028 

4,765 

2,796 

4,264 

2,640 

3,939 

2,528 

3,710 

24 

4,260 

7,823 

3,403 

5,614 

3,009 

4,718 

2,776 

4,218 

2,621 

3,895 

2,508 

3,667 

25 

4,242 

7,770 

3,385 

5,568 

2,991 

4,675 

2,759 

4,177 

2,603 

3,855 

2,490 

3,627 

26 

4,225 

7,721 

3,369 

5,526 

2,975 

4,637 

2,743 

4,140 

2,587 

3,818 

2,474 

3,591 

27 

4,210 

7,677 

3,354 

5,488 

2,960 

4,601 

2,728 

4,106 

2,572 

3,785 

2,459 

3,558 

28 

4,196 

7,636 

3,340 

5,453 

2,947 

4,568 

2,714 

4,074 

2,558 

3,754 

2,445 

3,528 

29 

4,183 

7,598 

3,328 

5,420 

2,934 

4,538 

2,701 

4,045 

2,545 

3,725 

2,432 

3,499 

30 

4,171 

7,562 

3,316 

5,390 

2,922 

4,510 

2,690 

4,018 

2,534 

3,699 

2,421 

3,473 

40 

4,085 

7,314 

3,232 

5,179 

2,839 

4,313 

2,606 

3,828 

2,449 

3,514 

2,336 

3,291 

80 

3,960 

6,963 

3,111 

4,881 

2,719 

4,036 

2,486 

3,563 

2,329 

3,255 

2,214 

3,036 

120 

3,920 

6,851 

3,072 

4,787 

2,680 

3,949 

2,447 

3,480 

2,290 

3,174 

2,175 

2,956 

oo 

3,842 

6,637 

2,997 

4,607 

2,606 

3,784 

2,373 

3,321 

2,215 

3,019 

2,099 

2,804 



V, 

= 8 

v, = 

: 10 

v, = 

: 12 

v, = 

: 24 

v, = 

- 48 

v, = 

: OO 




P= 0,05 







P= 0,01 


P= 0,01 

u 

238,883 

5981,070 

241,882 

6055,847 

243,906 

6106,321 

249,052 

6234,631 

251,669 

6299,892 

254,314 

6365,861 

El 

19,371 

99,374 

19,396 

99,399 

19,413 

99,416 

19,454 

99,458 

19,475 

99,478 

19,496 

99,499 

D 

8,845 

27,489 

8,786 

27,229 

8,745 

27,052 

8,639 

26,598 

8,583 

26,364 

8,526 

26,125 

11 

6,041 

14,799 

5,964 

14,546 

5,912 

14,374 

5,774 

13,929 

5,702 

13,699 

5,628 

13,463 

5 

4,818 

10,289 

4,735 

10,051 

4,678 

9,888 

4,527 

9,466 

4,448 

9,247 

4,365 

9,020 

6 

4,147 

8,102 

4,060 

7,874 

4,000 

7,718 

3,841 

7,313 

3,757 

7,100 

3,669 

6,880 

7 

3,726 

6,840 

3,637 

6,620 

3,575 

6,469 

3,410 

6,074 

3,322 

5,866 

3,230 

5,650 

8 

3,438 

6,029 

3,347 

5,814 

3,284 

5,667 

3,115 

5,279 

3,024 

5,074 

2,928 

4,859 

9 

3,230 

5,467 

3,137 

5,257 

3,073 

5,111 

2,900 

4,729 

2,807 

4,525 

2,707 

4,311 

10 

3,072 

5,057 

2,978 

4,849 

2,913 

4,706 

2,737 

4,327 

2,641 

4,124 

2,538 

3,909 

11 

2,948 

4,744 

2,854 

4,539 

2,788 

4,397 

2,609 

4,021 

2,511 

3,818 

2,404 

3,602 

12 

2,849 

4,499 

2,753 

4,296 

2,687 

4,155 

2,505 

3,780 

2,405 

3,578 

2,296 

3,361 

13 

2,767 

4,302 

2,671 

4,100 

2,604 

3,960 

2,420 

3,587 

2,318 

3,384 

2,206 

3,165 

14 

2,699 

4,140 

2,602 

3,939 

2,534 

3,800 

2,349 

3,427 

2,245 

3,224 

2,131 

3,004 

15 

2,641 

4,004 

2,544 

3,805 

2,475 

3,666 

2,288 

3,294 

2,182 

3,090 

2,066 

2,868 

16 

2,591 

3,890 

2,494 

3,691 

2,425 

3,553 

2,235 

3,181 

2,128 

2,976 

2,010 

2,753 

17 

2,548 

3,791 

2,450 

3,593 

2,381 

3,455 

2,190 

3,084 

2,081 

2,878 

1,960 

2,653 

18 

2,510 

3,705 

2,412 

3,508 

2,342 

3,371 

2,150 

2,999 

2,040 

2,793 

1,917 

2,566 

19 

2,477 

3,631 

2,378 

3,434 

2,308 

3,297 

2,114 

2,925 

2,003 

2,718 

1,878 

2,489 

20 

2,447 

3,564 

2,348 

3,368 

2,278 

3,231 

2,082 

2,859 

1,970 

2,652 

1,843 

2,421 

21 

2,420 

3,506 

2,321 

3,310 

2,250 

3,173 

2,054 

2,801 

1,941 

2,593 

1,812 

2,360 

22 

2,397 

3,453 

2,297 

3,258 

2,226 

3,121 

2,028 

2,749 

1,914 

2,540 

1,783 

2,305 

23 

2,375 

3,406 

2,275 

3,211 

2,204 

3,074 

2,005 

2,702 

1,890 

2,492 

1,757 

2,256 

24 

2,355 

3,363 

2,255 

3,168 

2,183 

3,032 

1,984 

2,659 

1,868 

2,448 

1,733 

2,211 

25 

2,337 

3,324 

2,236 

3,129 

2,165 

2,993 

1,964 

2,620 

1,847 

2,409 

1,711 

2,169 

26 

2,321 

3,288 

2,220 

3,094 

2,148 

2,958 

1,946 

2,585 

1,828 

2,373 

1,691 

2,131 

27 

2,305 

3,256 

2,204 

3,062 

2,132 

2,926 

1,930 

2,552 

1,811 

2,339 

1,672 

2,097 

28 

2,291 

3,226 

2,190 

3,032 

2,118 

2,896 

1,915 

2,522 

1,795 

2,309 

1,654 

2,064 

29 

2,278 

3,198 

2,177 

3,005 

2,104 

2,868 

1,901 

2,495 

1,780 

2,280 

1,638 

2,034 

30 

2,266 

3,173 

2,165 

2,979 

2,092 

2,843 

1,887 

2,469 

1,766 

2,254 

1,622 

2,006 

40 

2,180 

2,993 

2,077 

2,801 

2,003 

2,665 

1,793 

2,288 

1,666 

2,068 

1,509 

1,805 

80 

2,056 

2,742 

1,951 

2,551 

1,875 

2,415 

1,654 

2,032 

1,514 

1,799 

1,325 

1,494 

120 

2,016 

2,663 

1,910 

2,472 

1,834 

2,336 

1,608 

1,950 

1,463 

1,711 

1,254 

1,381 

OO 

1,939 

2,513 

1,832 

2,323 

1,753 

2,187 

1,518 

1,793 

1,359 

1,537 

1,000 

1,000 
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POUR A LLE R P L US L O I N 

La méthode de Holt-Winters 


Les équations (4.15) et (4.16) du LED peuvent encore 
s’écrire sous la forme suivante : 
d, = 8Y, + (1 - + â,_i) = OY, + (1 - e)Ê t _! (4.36) 

et 

à, = A(d, - d t - 1) + ( 1 - A)â t -i (4.37) 

avec 6 = a(2 - a) et A = -; 0 < 8 < 1 et 

2 — a 

0 < A < 1 . La méthode de Holt consiste à utiliser ces 
deux dernières équations du LED pour estimer la ten¬ 
dance, mais en choisissant les deux constantes 6 et A in¬ 
dépendamment. Plus spécifiquement, l’équation (4.36) 
s’interprète comme une moyenne pondérée de deux in¬ 
formations relatives au niveau de la série à la date t et 
6 représente la pondération que l’on souhaite attribuer à 
la dernière valeur observée Y, comparativement à la pré¬ 
vision réalisée à la date t — 1. L’équation (4.37) s’inter¬ 
prète comme une moyenne pondérée de deux informa¬ 
tions relatives à la pente de la série à la date t et A renvoie 
au poids attribué à la dernière variation de la tendance 


(. d , - rf,_i) comparativement à l’estimation de la pente 
en (t - 1), â t - 1 . Le lissage de Holt comprend donc deux 
paramètres, un pour l’ordonnée à l’origine (c’est-à-dire 
le niveau de la série), l’autre pour la pente. La méthode 
de Holt consiste ainsi en une adaptation du LED visant 
à mieux prendre en compte les variations de la pente au 
cours du temps : plus la valeur retenue pour A est éle¬ 
vée, plus la réaction à un changement de la pente de la 
tendance est rapide. Pour finir, notons que cette méthode 
présente l’avantage, par rapport au LED, de pouvoir être 
étendue à une série présentant une composante saison¬ 
nière ; un troisième paramètre, relatif à la saisonnalité, 
est alors pris en compte en plus des deux précédents pa¬ 
ramètres (ordonnée à l’origine et pente). Cela conduit 
à la méthode de Holt et Winters (voir Winters, 1960) 
consistant en l’application d’un lissage de Holt sur la 
partie non saisonnière, couplée à un lissage exponentiel 
dit de Winters pour la partie saisonnière. 


12 Pour la démonstration, voir Gouriéroux et Monfort (1995). 
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Trois questions à Axelle Chauvet-Peyrard, chef de division à l'INSEE et précédemment 
responsable de la méthodologie de l’indice des prix à la consommation au sein de la 
direction des statistiques démographiques et sociales de l’INSEE 

1 ) Que mesure précisément l'indice des prix à la consommation mis à disposition par l'INSEE 
et comment est-il calculé en pratique ? Quels problèmes peut poser un tel indice agrégé ? 

L’indice des prix à la consommation (IPC) est un indicateur synthétique dont l’objectif est 
d’estimer la pression inflationniste qui s’exerce à l’intérieur du territoire français, et ce à 
travers la mesure de l’évolution des prix des biens et services offerts à la consommation finale 
par les points de vente installés sur le territoire français (France métropolitaine et 
départements d’outre-mer). Le recensement complet de tous les produits offerts aux 
consommateurs étant matériellement impossible, cette mesure s’effectue par le biais d’un 
échantillonnage. Un « panier-type » de biens et services est ainsi défini et révisé chaque année 
de manière à être représentatif de la consommation réelle des ménages, telle qu’observée sur 
le territoire dans un passé récent 1 . Parallèlement, on effectue un échantillonnage des points de 
vente au sein desquels seront observés tous les mois les prix des produits retenus dans le 
panier-type. Ces observations de prix sont ensuite agrégées sous fonne d’indice. La formule 
retenue pour l’IPC comme pour l’IPCH (indice des prix à la consommation « harmonisé » au 
niveau européen) est, conformément à la réglementation européenne, celle de Laspeyres. 
Cette formule, qui consiste à agréger les indices élémentaires de prix I‘ /0 de différents 
produits i en effectuant une moyenne arithmétique pondérée (voir équation (3.22)), appelle 
plusieurs commentaires : 

L’indice compare les prix de la période courante (notée t) aux prix d’une période de 
référence (notée 0). Dans l’IPC, la période de référence est la même pendant toute 
l’année n, et correspond au mois de décembre de l’année n-1. L’IPC diffusé est en fait 
un indice « chaîné » de manière à présenter une référence temporelle unique 2 et donc à 
faciliter les comparaisons d’une année sur l’autre et les analyses sur longue période. 
Les pondérations a' 0 utilisées dans le calcul de l’IPC correspondent aux parts de 

dépense consacrées en période de référence au produit i . Elles sont issues des comptes 
nationaux de l’année n-2 et «valorisées» en décembre n-1. Ces données n’étant 
disponibles qu’à partir d’un certain niveau d’agrégation, les indices « élémentaires » 
I‘ /0 utilisés dans le calcul de l’IPC sont déjà le résultat d’une agrégation, que l’on 

appelle agrégation élémentaire ou de premier niveau et qui, faute de données fines de 
pondérations, ne peut pas se faire selon la formule de Laspeyres. En pratique, on opte 
pour une formule de Dutot ou une formule de levons en fonction des produits^. 

Comme tout produit d’une agrégation, l’IPC reflète des réalités et des situations très diverses. 
Étant un indicateur d’inflation, il couvre l’intégralité du champ de la consommation des 
ménages, y compris des biens durables tels que les ordinateurs ou des services plus ou moins 
fréquemment consommés. Il y a souvent une mécompréhension de F IPC, le grand public étant 
davantage attentif à ce qu’on appelle parfois le « prix du caddie ». De plus, pour être une 


*On dispose pour ce faire des données issues des comptes de la nation ainsi que de sources complémentaires comme 
l’enquête quinquennale « budget des familles » par exemple. 

“Actuellement, la période de référence prise pour la diffusion de l’IPC est l’année 1998. A partir du 1 er janvier 2016, cette 
référence sera modifiée et deviendra l’année 2015. 

3 La littérature sur les indices de prix a largement étudié le problème de l’agrégation de premier niveau et comparé les qualités 
et défauts des différentes formules à disposition. La formule de Dutot consiste dans le rapport des moyennes arithmétiques 
simples des prix aux périodes courante et de référence. La formule de levons reprend cette formule, en remplaçant les 
moyennes arithmétiques par des moyennes géométriques. 
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mesure efficace de la pression inflationniste, il est nécessaire que la mesure d’évolution des 
prix se fasse à qualité constante. De cette façon, si le prix étiqueté d’un produit reste stable 
mais que sa qualité s’améliore, l’indice élémentaire du produit diminuera de fait. C’est ce qui 
se passe par exemple sur les ordinateurs. Et c’est également ce qui donne un IPC relativement 
stable depuis des années autour de 1,5 à 2 % d’inflation annuelle, alors que les ménages 
« vivent » une hausse des prix étiquetés jugée bien supérieure. 

2) Pourquoi l'INSEE calcule-t-il également des indices des prix à la consommation par 
catégorie de ménage en tenant compte notamment de la région d'habitation et de la taille de 
la commune de référence ? Concrètement, que met en évidence le calcul de ces indices ? 

Comme dit précédemment, l’IPC reflète des réalités diverses et potentiellement contrastées. 
Les pondérations prises pour le calcul de l’indice, et dont les valeurs ont un fort impact sur le 
résultat final, correspondent aux parts de budget consacrées à chaque type de produit, selon 
une nomenclature de produits « comptable » et considérées de manière agrégée pour 
l’ensemble de la population. Or les profils de consommation des Français sont en réalité très 
diversifiés. C’est pourquoi l’INSEE a par exemple mis à disposition sur son site internet 
www.insee.fr un simulateur d’indice personnalisé permettant de recalculer l’indice de 
Laspeyres en y imputant les parts de dépense réellement accordées par l’individu à tel ou tel 
poste de consommation. Ainsi, par exemple, l’évolution des loyers comptera pour zéro dans 
l’indice personnalisé d’un ménage propriétaire de son logement. Le mode de vie influence 
obligatoirement le mode de consommation. Selon la tranche d’âge, le milieu d’habitation 
(rural ou urbain) ou encore la composition du ménage (célibataires, couples avec ou sans 
enfants, familles monoparentales, etc.), les parts de dépense consacrées à tel ou tel type de 
produit varient. On peut donc être amené à s’interroger sur les différences éventuelles 
d’inflation subie par différentes catégories de ménages, afin de s’assurer qu’il n’y a pas de 
trop grandes inégalités au sein de la population française par rapport à l’inflation. Les indices 
par catégories de ménages, qui sont publiés annuellement par l’INSEE, montrent en effet que 
les disparités restent en général assez faibles. La région d’habitation, par exemple, joue assez 
peu sur l’inflation subie par les ménages, même si on constate que la facture énergétique pèse 
plus durement sur les ménages du nord et de l’est de la France. Plus notable est la différence 
d’inflation subie par les ménages en fonction de la taille de leur commune de résidence. Ce 
résultat semble lié au poids budgétaire que représentent les carburants ainsi que les 
combustibles liquides (fioul) dans le budget des ménages ruraux, qui est plus important que 
pour les ménages urbains. De ce fait, la forte inflation constatée ces dernières années sur ces 
deux postes a un impact plus fort sur le budget des ménages ruraux que sur celui des ménages 
urbains 4 . 

3) Au niveau méthodologique, pourquoi privilégier l'indice de Laspeyres pour le calcul des 
indices des prix à la consommation ? 

L’indice de Laspeyres est un des plus anciens indices qui existe et le seul reconnu par la 
réglementation européenne. Par rapport à ses prédécesseurs, il possède le grand avantage 
d’être pondéré par les parts de dépense réellement consacrées à tel ou tel produit. Or, d’un 
point de vue statistique, ne pas pondérer les produits revient à supposer l’existence d’un 
modèle économétrique sous-jacent dans lequel les évolutions de prix des produits oscillent 


4 Sur ces questions relatives à l’impact de la région d’habitation et de la taille de la commune de résidence, on 
pourra consulter Chauvet-Peyrard (2013), «Indices des prix à la consommation 1998-2012 selon la région 
d’habitation des ménages et selon la taille de la commune de résidence », Document de travail INSEE, Direction 
des statistiques démographiques et sociales Fl306. 
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autour d’un taux d’inflation unique, de manière indépendante les unes des autres. Cette 
approche, qui fut celle de levons puis d’Edgeworth, a été violemment critiquée par John 
Maynard Keynes, qui l’estimait hautement irréaliste. Walsh et Fisher, qui furent les deux plus 
grands théoriciens des indices de prix, ont tous les deux défendu des formules d’indices 
pondérées par les parts de dépense. 

D’un point de vue méthodologique, l’indice de Laspeyres n’est pas parfait. L’emploi de 
pondérations basées sur la consommation en période de référence a comme conséquence que, 
plus on s’éloigne de ladite période de référence, plus les pondérations s’éloignent des 
« vraies » parts de dépense. On dit que l’indice de Laspeyres ignore les « effets de 
substitution ». En effet, si un produit devient fortement inflationniste, il est probable que les 
consommateurs chercheront à reporter tout ou partie de leur consommation sur un produit 
rendant un service comparable, mais moins inflationniste. 

Dans la pratique donc et sur la plupart des produits de consommation courante notamment, un 
produit fortement inflationniste sera de moins en moins consommé, ce qui devrait se traduire 
dans l’indice agrégé par une moindre pondération de cette source d’inflation. Ce n’est pas le 
cas avec l’indice de Laspeyres. Toutefois, des études quantitatives ont pu démontrer que, dans 
le cas de l’IPC français, le biais de substitution était de faible ampleur. En outre, il n’est que 
rarement possible d’observer en temps réel l’évolution des quantités consommées, donc de 
connaître les parts de dépense de la période courante. Les « meilleures » formules d’indice, 
parmi lesquelles celles de Fisher ou de Walsh, qui utilisent des pondérations symétriques 
entre les périodes 0 et t, ne sont pas applicables dans le cadre d’une statistique comme l’IPC, 
qu’il est important de publier le plus rapidement possible afin qu’il puisse remplir son rôle 
d’indicateur conjoncturel. 

Étant un indice de panier-type, l’indice de Laspeyres est également très facile à mettre en 
œuvre car il « suffit » d’observer les prix de produits prédéterminés, à intervalle de temps 
régulier, dans un même endroit. Des problèmes se posent toutefois lorsque les produits que 
l’on cherche à observer sont par nature volatiles, soit de manière saisonnière (c’est le cas de 
certains fruits ou légumes, des vêtements, des articles de rentrée scolaire, etc.) soit de manière 
définitive (c’est le cas des secteurs à fort taux d’innovation technique, par exemple). Des 
méthodes complémentaires doivent alors être mises en place pour s’adapter à ce profil 
particulier de produits. 
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Trois questions à Laurent Ferrara, Chef du Service de Macroéconomie Internationale à 
la Banque de France et Professeur associé à l’Université Paris Ouest 

1) Dans le cadre de vos études et recherches à la Banque de France, est-il important d’identifier la 
tendance d’une série macroéconomique ou financière ? 

Le service de Macroéconomie Internationale de la Banque de France s’occupe du suivi des pays 
industrialisés n’appartenant pas à la zone euro et de sujets plus transversaux comme les taux de 
change, les matières premières ou les déséquilibres mondiaux. Lorsque nous faisons le suivi 
conjoncturel de l’économie des pays ou des marchés financiers pour le Gouverneur de la Banque de 
France, il est important de dégager des messages clairs et de ne pas focaliser uniquement sur les 
derniers chiffres qui peuvent refléter des événements exceptionnels, voire inexpliqués. Dans un 
langage statistique et économétrique, cela signifie que nous cherchons à identifier le signal (c’est-à- 
dire la tendance et/ou le cycle) par rapport au bruit (ou composante résiduelle). L’extraction du signal 
est essentielle pour l’analyse économique car les relations macroéconomiques théoriques entre les 
variables sur lesquelles nous nous appuyons concernent en général le moyen terme, voire le long 
terme. Ainsi, filtrer le bruit de très court terme et récupérer les tendances de moyen et long termes 
constituent une grande partie du travail de conjoncturiste. Dans cette optique, les méthodes statistiques 
et économétriques sont d’une grande utilité, notamment les méthodes de lissage de type moyenne 
mobile ou les techniques de filtrage qui permettent de décomposer les variables macroéconomiques 
entre une tendance de long terme et une composante cyclique. 


2) Quelles sont, parmi les séries que vous étudiez en macroéconomie ou en finance, celles qui 
présentent une saisonnalité marquée ? Pourquoi est-il nécessaire de les désaisonnaliser ? 

La saisonnalité est souvent présente dans les séries macroéconomiques et vient « polluer » le 
diagnostic conjoncturel. En particulier, les séries de ventes ou de production sont fortement affectées 
par ce type de fait stylisé. Il semble en effet naturel que, par exemple, les ventes de voitures — une des 
variables les plus suivies pour l’analyse conjoncturelle — soient nettement plus faibles pendant le 
mois d’août que durant les autres mois de l’année. Inversement, la production de certains matériaux de 
construction, tels le béton, est très sensible au climat et a tendance à chuter pendant les mois d’hiver. 
Ces mouvements qui interviennent de manière périodique au cours d’une année doivent 
impérativement être pris en compte dans l’analyse. En effet, on ne peut pas comparer directement les 
ventes de voitures du mois de septembre avec celles du mois d’août. Une manière facile de tenir 
compte de la saisonnalité est de raisonner en termes de glissement annuel, c’est-à-dire de comparer la 
valeur d’un mois d’une année donnée à celle de ce même mois mais de l’année précédente. Cela est 
pratique, mais introduit un certain décalage temporel dans l’analyse. La littérature relative à 
l’économétrie des séries temporelles regorge de différentes méthodes pour décomposer efficacement 
ce type de séries entre une composante saisonnière et des composantes tendancielles et cycliques. La 
série filtrée de sa composante saisonnière sera appelée corrigée des variations saisonnières (CVS). Ce 
sont ces séries que nous privilégions pour l’analyse économique et nous faisons confiance aux 
producteurs de données (INSEE, Eurostat, Bureau of Economie Analysis, etc.) pour la qualité des 
données CVS qu’ils fournissent. 
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3) Quelles sont les séries sur lesquelles vous travaillez qui se prêtent le mieux aux méthodes de séries 
temporelles, c’est-à-dire aux méthodes consistant à expliquer une série par ses propres valeurs 
passées ? 

L’analyse économique fait appel à un grand nombre de séries que l’on peut classer en trois grands 
groupes : données financières, qui reflètent l’activité sur les marchés financiers ; données issues 
d’enquêtes d’opinion (auprès des ménages, des industriels ou d’experts économiques) ; et données 
dites réelles (ventes, production, PIB,etc.). Parmi toutes ces séries, celles qui se prêtent le mieux aux 
méthodes de séries temporelles sont celles qui présentent la plus forte persistance (ou inertie). 
Typiquement, le taux de croissance du PIB ou de la production industrielle et les enquêtes d’opinion 
sont des séries caractérisées par une certaine persistance, rendant favorable leur modélisation via les 
méthodes de séries temporelles. Le taux de chômage et l’inflation sont deux autres séries qui 
possèdent une forte corrélation entre deux observations, permettant également le recours aux méthodes 
de séries temporelles pour leur analyse.Par exemple, le marché de l’emploi est connu pour présenter 
une forte hystérèse qui fait qu’à la fin d’une récession, le nombre de chômeurs continue d’augmenter 
alors que l’activité économique a repris, ce qui engendre ainsi de la persistance dans la série du taux de 
chômage. De l’autre côté du spectre se trouvent les variables relatives aux marchés financiers, telles 
que les taux de change, le prix des actions ou le prix du pétrole. Ces variables sont très volatiles et 
présentent très peu de persistance, les rendant difficiles à modéliser et à prévoir. En revanche, il existe 
une forme de persistance sur leur volatilité qu’il est souvent utile de prendre en compte. Au-delà de 
cette propriété de persistance, les séries macroéconomiques et financières présentent fréquemment des 
valeurs aberrantes, des ruptures, des non-linéarités, etc., rendant nécessaire la mise en place de 
méthodes statistiques et économétriques avancées pour aider à l’analyse économique. 
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